初 ， 
加 ， 


Elasticsearch 产 品 的 更 新 变化 非常 快 ， 在 我 们 开发 研 
发 接口 相关 的 部 分 都 已 经 过 时 ， 
中 做 了 取舍 ， 我 们 当时 分 析 HTTP JSON 接 
认证 等 。 但 这 些 东西 都 没有 资料 ， 我 们 基本 上 都 是 研究 系统 源码 来 克服 的 。 在 
也 有 很 大 的 帮助 。 在 持续 和 


公司 开发 了 一 款 日 志 分 析 产 品 1 


， 各 方面 更 加 成 熟 ， 我 们 


Elasticsearch 是 目前 全 球 最 受 欢迎 的 全 文 搜索 引擎 。 初 识 Elasticsearch 是 在 2012: 


的 一 个 项 


Ei 


它 实时 不 间断 地 采集 


， 在 上 亿 条 的 数据 中 进行 统计 分 析 大 多 也 是 在 秒 级 完成 ， 它 
的 产品 又 再 一 次 升级 到 这 个 新 版 本 上 。 


没有 办 法 在 新 版 本 中 使 


究 的 过 程 中 基本 上 找 不 到 新 版 本 的 中 文 资料 ， 目 前 
。 所 以 我 们 开发 的 过 程 中 基本 上 都 是 
最 终 还 是 要 转换 成 Java 接 


REAM, ARES 


中 ， 当 时 Elasticsearch 还 是 0.19.0 版 本 ， 但 是 功能 已 经 比较 强大 ， 只 是 接口 稍微 有 点 复杂 。 到 了 2015 
络 中 各 种 不 同系 统 的 日 志 ， 然 后 从 中 分 析 系统 的 安全 情况 、 系 统 情况 、 业 务 情况 。 最 初 所 有 的 数据 都 存储 在 MySQL 中 ， 随 着 
MySQl 搜 索 速度 越 来 越 慢 。 后 来 在 更 换 技术 架构 选 型 的 时 候 又 想到 了 Elasticsearch ， 这 个 时 候 Elasticsearch 已 经 是 1.6.0 版 本 了 。 我 们 对 此 进行 了 简单 的 测试 ， 在 上 亿 条 的 数据 搜索 中 很 多 都 在 一 秒 内 完 
展示 了 强大 实力 。 我 们 顺势 就 把 Elasticsearch 整 合 到 了 现在 的 产品 中 ， 取 得 了 很 好 效果 。 到 了 2016 年 3 月 的 时 候 ，Elasticsearch 发 布 了 2.3.0 版 


志 的 不 断 增 


6 场 上 介绍 Elasticsearch 的 中 文书 籍 都 是 在 版 本 1.0 左 右 ， 甚 至 更 早 ， 这 些 书 的 很 多 内 容 尤其 是 开 
究 它 的 源码 才能 解决 问题 。 在 接口 选择 的 时 候 我 们 在 HTTP JSON 接 


和 Java 接 


Java 接 


， 不 如 直接 使 


究 的 过 程 中 ， 我 们 积累 了 大 量 经 验 


， 并 想 把 这 些 经 验 分 享 给 更 多 需 


， 一 是 效率 可 能 更 高 ,二 
后 续 研 究 过程 中 ， 我 们 发 现 HTTP 接 


转换 到 Java 接 


是 在 部 署 实施 的 时 候 减 少 一 个 端 
是 有 规律 的 ， 所 以 对 HTTP 接 口 的 掌握 对 后 续 Elasticsearch 的 开发 和 扩展 
的 人 。 后 来 我 把 这 个 想法 给 出 版 社 的 吴 怡 编辑 做 了 沟通 ， 她 非常 支持 我 们 的 想法 ， 


， 三 是 对 后 续 的 升级 更 有 利 ， 比 如 后 续 增 加 权限 


便 有 了 这 本 书 。 


本 书 首先 介绍 Elasticsearch 的 相关 基础 知识 ， 然 后 由 浅 入 深 地 介绍 Elasticsearch 索 引 查 询 相 关 的 知识 ， 包 括 索引 、 映 射 、 搜 索 、 聚 合 ， 接 着 介绍 Elasticsearch 的 集群 、 分 词 、 重 要 的 配置 等 高 级 功能 ， 


以 及 Elasticsearch 相 关 的 其 他 产品 ， 包 括 告警 、 监 控 、 权 限 管理 ， 最 


本 书 主 要 内 容 包 括 : 


第 1 章 
Java API 接 口 。 
第 2 章 “索引 ”， 介绍 和 Elasticsearch 索 引 相 关 的 接口 ， 
第 3 章 
第 4 章 “搜索 ”， 


第 5 章 
第 6 章 
第 7 章 
第 8 章 


第 9 章 


“Elasticsearch 入 门 ”， 介 绍 Elasticsearch 是 什么 、Apache Lucene 的 基础 知识 、Elasticsearch 的 术语 、JSON 介 绍 、 


“上 映射”， 介 绍 Elasticsearch 文 档 的 内 部 结构 ，Elasticsearch 支 持 的 字段 类 型 ， 除 此 之 外 ， 本 章 还 将 


包括 索引 管理 、 索 引 映 射 管理 、 索 引 


“聚合 ”， 聚 合 可 以 对 文档 中 的 数据 进行 统计 汇总 、 分 组 等 ， 通 过 聚合 可 以 完成 很 多 的 统计 功能 ， 


“集群 管理 ”， 


“索引 分 词 器 ”， 


详细 介绍 和 集群 相关 的 内 容 ， 包 括 集群 的 监控 、 集 群 分 片 迁移 、 集 群 的 节点 配 


别名 、 索 引 设 置 、 索 引 上 监控 、 索 引 其 他 重 


后 通过 一 个 ELK 示 例 结束 本 书 。 在 写作 的 时 候 考 虑 到 读者 的 接受 能 力 ， 由 浅 入 深 地 进行 讲解 ， 建 议 读者 从 前 往 后 阅读 。 


Elasticsearch 的 安装 运行 、Elasticsearch 的 HTTP 接 口 和 Elasticsearch 的 


接 


以 及 文档 管理 。 


“高 级 配置 ”， 介 绍 Elasticsearch 的 高 级 配置 ， 包 括 网 络 配 


"ag 


告警 、 监 控 和 权限 管理 ”， 介 绍 Elasticsearch 官 方 支持 的 几 个 比较 好 的 插件 : Watcher、Marvel、Shield， 它 们 可 以 对 Elasticsearch 进 行 告警 、 


第 10 


“ELK 应 


试 使 


本 书 的 目标 读者 是 对 全 文 检索 和 Elasticsearch 有 兴趣 的 读者 ， 如 果 你 是 一 个 初学 者 ， 通 过 本 书 你 将 学 到 Elasticsearch 的 基础 知识 ， 以 及 


国 是 2.2.0 版 本 | 
了 Elasticsearch Head 插 件 。 如 果 你 想 使 
化 后 的 JSON 格 式 比较 长 ， 所 以 我 们 在 不 影响 阅读 的 情况 下 ， 


”， 介 绍 Elasticsearch 与 男 外 两 个 产品 Logstash 和 Kibana 如 何 组 合 使 
后 通过 一 个 简单 的 示例 来 介绍 ELK 几 个 产品 是 如 何 关联 的 。 


、 脚 本 配 


在 编写 本 书 的 时 候 ，Elasticsearch 的 最 新 版 本 是 2.2.0， 但 本 书 准备 正式 出 版 的 上 时候，Elasticsearch 发 布 了 最 新 的 5.0 版 本 。 所 以 本 书 增 力 
的 ， 书 中 所 有 的 例子 和 功能 都 可 以 在 Elasticsearch 2.3.3 下 运行 ， 大 部 分 的 功能 都 可 以 在 5.0 下 运行 ， 详 细 的 新 版 本 差别 请 参考 


另 一 种 工 


， 请 注意 修改 HTTP 请 求 的 格式 和 编码 ， 以 便 适合 你 所 选择 的 工 


但 又 想 深入 了 解 其 本 身 ， 想 了 解 如 何 改进 查询 相关 性 ， 如 何 使 


对 美化 后 的 格式 做 了 简 生 


、 快 照 和 恢复 配置 、 线 程 池 配置 和 索引 配置 。 


。 书 中 例子 | 


展示 Elasticsearch 内 置 的 元 字段 ， 映 射 的 参数 和 动态 映射 功能 。 


详细 介绍 和 搜索 相关 的 知识 ， 包 括 搜索 的 详细 参数 ， 搜 索 的 评分 机 制 、 滚 动 查询 、 系 统 内 部 隐藏 内 容 的 查询 、 搜 索 模板 等 ; 接着 介绍 Elasticsearch 的 领域 查询 语言 DSL (Domain- 


该 章 介绍 聚合 相关 的 知识 ， 包 括 度量 聚合 、 分 组 聚合 和 管道 聚合 。 


、 集 群发 现 、 集 群 平 衡 的 原理 和 配置 。 


了 一 个 附录 专门 介绍 5.0 版 本 的 特性 与 改进 。 本 书 前 和 
竺 录 部 分 。 本 书 中 的 例子 大 部 分 都 是 HTTP 接 | 
的 结构 大 多 是 JSON 格 式 ， 美 化 后 的 JSON 格 式 比较 容易 阅读 ， 但 美 


介绍 Elasticsearch 的 分 词 器 和 分 词 的 原理 ， 以 及 如 何 添加 新 的 分 词 器 等 ; 还 介绍 Elasticsearch 的 插件 相关 知识 ， 包 括 插件 安装 等 。 


监控 和 权限 管理 。 


，Logstash 是 对 日 志 进 行 收集 和 处 理 ，Kibana 是 对 存储 在 Elasticsearch 中 的 索引 进行 展示 和 报表 分 析 ; 最 


的 部 分 截 
的 ， 这 些 接口 的 测 


调整 。 书 中 还 有 一 小 部 分 是 Java 接 口 


Elasticsearch Java API 等 ， 也 会 发 现 本 书 的 实 


由 于 时 间 紧 ， 能 力 有 限 ， 编 写 的 过 程 中 难免 有 不 当 之 处 ， 还 请 各 位 读者 不 音 指出 。 


致谢 
在 此 ， 首 先 我 想 感谢 我 的 家 庭 ， 多 年 以 来 ， 因 为 工作 关系 我 照顾 他 们 太 少 ， 
其 次 还 要 感 澳 赛 克 蓝 德 公司 以 及 公司 的 同 导 

队 ， 尤 其 是 吴 怡 编辑 ， 写 书 是 件 非常 艰巨 的 任务 ， 很 多 内 容 需 


最 后 ， 非 常 诚挚 地 感 澳 所 有 Elasticsearch 项 目的 创建 者 和 开发 者 ， 感 澳 他 们 杰出 的 工作 和 对 开源 项 目的 热情 。 没 有 他 们 ， 就 没有 本 书 的 诞生 ,没有 他 们 ， 开 源 搜索 引擎 就 不 会 有 现在 这 种 活力 。 再 


谢 ! 


他 们 为 我 付出 太 多 ; 我 在 全 身心 投入 本 书写 作 的 时 候 ， 他 们 


， 我 们 在 实验 时 


性 。 


0 何 使 


的 是 Eclipse 工 具 ， 其 他 主流 的 Java 


发 工具 都 适用 。 


一 些 高 级 功能 。 


如 果 你 已 经 知道 并 使 


了 Elasticsearch 


同样 表现 出 了 极 大 的 耐心 ， 是 我 最 坚强 的 后 盾 。 


` 周 忠 立 、 万 荣 慧 和 夏海 华 ， 是 他 们 的 辛勤 工作 才 完 成 本 书 的 编写 工作 ， 


推敲 才能 表达 准确 的 意思 ， 吴 怡 在 检查 错误 、 校 稿 、 


尤其 是 周 忠 立 在 很 多 章节 的 编写 上 贡献 了 很 多 的 内 容 ; 同时 要 感谢 本 书 的 出 版 团 
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消除 表达 层 义 等 方面 做 出 了 很 多 贡献 。 


朱林 


2016 年 10 月 于 南京 


欢迎 来 到 Elasticsearch 世 界 ， 它 目前 是 全 球 最 受 欢迎 的 全 文 搜索 引擎 。 你 对 Elasticsearch 和 全 文 搜索 有 没有 经 验 都 不 要 紧 。 我 们 希望 你 可 以 通过 这 本 书 走 进 Elasticsearch 的 大 门 。 这 本 书 是 为 初学 者 准 


备 的 ， 当 然 对 于 中 高 级 的 人 员 也 有 参考 作 


JSON 接 [ 


和 Java 接 


。 在 学 习 这 些 接 


的 过 程 中 , 不 


陷入 太 多 的 细节 ， 后 面 的 章节 会 逐步 


。 我 们 首先 介绍 一 些 和 Elasticsearch 相 关 的 基础 内 容 。 接 着 介绍 一 下 Elasticsearch 的 安装 和 配置 。 此 外 本 章 还 会 介绍 如 何 简单 使 
展开 并 细 化 接口 内 容 。 读 完 本 章 ， 你 将 学 到 以 下 内 容 : 


Elasticsearch， 包 括 HTTP 


` Elasticsearch 介 绍 

“ 全 文 搜索 

` Elasticsearch 的 基础 知识 
+ 安装 和 配置 Elasticsearch 
- HTTP REST API 接 口 


+ Java 开发 接口 


1.1 _ Elasticsearch 是 什么 


Elasticsearch (ES) 是 一 个 基于 Lucene 构 建 的 开源 、 分 布 式 、RESTful 接 口 全 文 搜索 引擎 。Elasticsearch 还 是 一 个 分 布 式 文档 数据 库 ， 其 中 每 个 字段 均 是 被 索引 的 数据 且 可 被 搜索 ， 它 能 够 扩展 至 数 以 
百 计 的 服务 器 存储 以 及 处 理 PB 级 的 数据 。 它 可 以 在 很 短 的 时 间 内 存储 、 搜 索 和 分 析 大 量 的 数据 。 它 通常 作为 具有 复杂 搜索 场景 情况 下 的 核心 发 动机 。 


Elasticsearch 就 是 为 高 可 用 和 可 扩展 而 生 的 。 可 以 通过 购置 性 能 更 强 的 服务 器 来 完成 ， 称 为 垂直 扩展 或 者 向 上 扩展 (Vertical Scale/Scaling Up) ， 或 增加 更 多 的 服务 器 来 完成 ， 称 为 水 平 扩展 或 者 向 
外 扩展 (Horizontal Scale/Scaling Out) 。 


尽管 ES 能 够 利用 更 强劲 的 硬件 ， 垂 直 扩展 毕竟 还 是 有 它 的 极限 。 真 正 的 可 扩展 性 来 自 于 水 平 扩展 ， 通 过 向 集群 中 添加 更 多 的 节点 来 分 担负 载 ， 增 加 可 靠 性 。 


在 大 多 数 数据 库 中 ， 水 平 扩展 通常 都 需要 你 对 应 用 进行 一 次 大 的 重 构 来 利用 更 多 的 节点 。 而 ES 天 生 就 是 分 布 式 的 : 它 知道 如 何 管理 多 个 节点 来 完成 扩展 和 实现 高 可 用 性 。 这 也 意味 着 你 的 应 用 不 需要 做 
任何 的 改动 。 


我 们 举 几 个 例子 来 说 明 Elasticsearch 能 做 什么 ? 


当 你 经 营 一 家 网 上 商店 ， 你 可 以 让 你 的 客户 搜索 你 卖 的 商品 。 在 这 种 情况 下 ， 你 可 以 使 用 Elasticsearch 来 存储 你 的 整个 产品 目录 和 库存 信息 ， 为 客户 提供 精准 搜索 ， 可 以 为 客户 推荐 相关 商品 。 


当 你 想 收集 日 志 或 者 交易 数据 的 时 候 ， 需 要 分 析 和 挖掘 这 些 数 据 ， 寻 找 趋势 ， 进 行 统计 ， 总 结 ， 或 发 现 异常 。 在 这 种 情况 下 ， 你 可 以 使 用 Logstash 或 者 其 他 工具 来 进行 收集 数据 ， 当 这 些 数据 存储 到 
Elasticsearch 中 。 你 可 以 搜索 和 汇总 这 些 数据 ， 找 到 任何 你 感 兴 趣 的 信息 。 


当 你 运行 一 个 价格 提醒 的 平台 ， 可 以 给 客户 提供 一 些 规则 ， 例 如 客户 有 兴趣 购买 一 个 电子 设备 ， 当 商品 的 价格 在 未 来 一 个 月 内 价格 低 于 多 少 钱 的 时 候 通知 客户 。 在 这 种 情况 下 ， 你 可 以 把 供应 商 的 价 
格 ， 把 他 们 定期 存储 到 Elasticsearch 中 ， 使 用 定时 器 过 滤 来 匹配 客户 的 需求 ， 当 查询 到 价格 低 于 客户 设 定 的 值 后 给 客户 发 送 一 条 通知 。 


当 有 大 量 数据 ( 干 万 条 以 上 的 记录 ) 时 ， 你 有 商业 智能 分 析 的 需求 ， 希 望 快速 调查 、 分 析 和 可 视 化 。 在 这 种 情况 下 ， 你 可 以 使 用 Elasticsearch 来 存储 你 的 数据 ， 然 后 用 Kibana 建 立 自 定义 的 仪表 板 或 者 
任何 你 熟悉 的 语言 开发 展示 界面 ， 你 可 以 使 用 Elasticsearch 的 聚合 功能 来 执行 复杂 的 商业 智能 与 数据 查询 。 


对 于 程序 员 来 说 ， 比 较 有 名 的 案例 是 GitHub，GitHub 的 搜索 是 基于 Elasticsearch 构 建 的 ， 在 github.com/search 页 面 ， 你 可 以 搜索 项 目 、 用 户 、issue、pull request， 还 有 代码 。 共 有 40~ 50 个 索引 
库 ， 分 别 用 于 索引 网 站 需要 跟踪 的 各 种 数据 。 虽 然 只 索引 项 目的 主 分 支 (master) ， 但 这 个 数据 量 依然 巨大 ， 包 括 20 亿 个 索引 文档 ，30TB 的 索引 文件 。 


12 全文 搜索 


全 文 搜索 是 指 计算 机 搜索 程序 通过 扫描 文章 中 的 每 一 个 词 ， 对 每 一 个 词 建立 一 个 索引 ， 指 明 该 词 在 文章 中 出 现 的 次 数 和 位 置 ， 当 用 户 查询 时 ， 搜 索 程 序 就 根据 事先 建立 的 索引 进行 查找 ， 并 将 查找 的 结 
果 反 馈 给 用 户 。 这 个 过 程 类 似 于 通过 字典 中 的 搜索 字 表 查 字 的 过 程 。Lucene 是 目前 全 球 使 用 最 广 的 全 文 搜索 引擎 开源 库 。 


1.3 ”基础 知识 


在 Elasticsearch 中 有 很 多 的 术语 和 概念 ， 为 了 后 面 更 好 地 理解 和 阅读 本 书 ， 本 节 先 介绍 一 下 这 些 术 语 和 概念 ， 然 后 介绍 一 下 Elasticsearch 存 储 的 格式 JSON。 


14 安装 配置 


下 面 是 安装 Elasticsearch 所 需要 的 几 个 步骤 ， 接 下 来 几 节 将 详细 说 明 。 


1.5 “对 外 接口 


Elasticsearch 对 外 提供 的 APl 是 以 HTTP 协 议 的 方式 ， 通 过 JSON 格 式 以 REST 约 定 对 外 提供 。 


HTTP 配 置 文件 是 放 在 elasticsearch.yml 中 ， 注 意 ， 所 有 与 HTTP 配 置 相关 的 内 容 都 是 静态 配置 ， 也 就 是 需要 重启 后 才 生 效 。HTTP 对 外 接口 模块 是 可 以 禁用 的 ， 只 需要 设置 http.enabled 为 false 即 可 。 
Elasticsearch 集 群 中 的 通信 和 是 通过 内 部 接口 实现 的 ， 而 不 是 HTTP 协 议 。 在 集群 中 不 需要 所 有 节点 都 开启 HTTP 协 议 ， 正 常情 况 下 ， 只 需要 在 一 个 节点 上 开启 HTTP 协 议 。 


1.6 Java 接 口 


Elasticsearch 本 身 是 Java 开 发 的 ， 天 生 对 Java 的 支持 能 力 是 最 好 的 ， 所 以 


I7 A 


本 章 介绍 了 全 文 搜索 Elasticsearch 的 基本 概念 和 历史 ， 介 绍 了 需要 掌握 Elasticsearch 的 基础 知识 。Elasticsearch 的 安装 、 配 置 和 升级 操作 ， 使 
索 、 删 除数 据 。 通 过 学 习 本 章 ， 应 该 对 Elasticsearch 有 了 基本 的 认识 。 


索引 是 具有 相同 结构 的 文档 集合 。 在 Elasticsearch 中 索引 是 个 非常 


操作 管理 。 


2.1 索引 管理 


Java 来 开发 Elasticsearch 应 该 是 一 个 不 错 的 选择 。 


第 2 章 索引 


Elasticsearch REST API 和 Java 接 口 来 索引 、 更 新 、 搜 


要 的 内 容 ， 对 Elasticsearch 的 大 部 分 操作 都 是 基于 索引 来 完成 的 。 本 章 介绍 索引 的 上 映射、 设置、 监控 管理 ， 以 及 索引 的 状态 和 文档 


第 1 章 里 已 经 启动 了 集群 并 创建 了 默认 的 索引 ， 除 了 默认 的 索引 配置 外 ， 我 们 还 可 以 通过 索引 管理 来 对 索引 进行 更 高 级 别 的 操作 。 首 先 了 解 一 下 创建 索引 的 过 程 ， 后 面 将 介绍 其 他 相关 操作 。 


2.2 ”索引 映射 管理 


在 前 面 例子 中 Elasticsearch 创 建文 档 的 时 候 ， 是 没有 指定 索引 参数 ， 这 个 时 候 系统 会 自动 判断 每 个 维度 的 类 型 ， 有 很 多 时 候 需 要 我 们 进行 一 些 更 高 级 的 设置 ， 比 如 索引 分 词 ， 是 否 存 储 等 。 


2.3 索引 别名 


在 Elasticsearch 所 有 的 APl 中 ， 对 应 的 是 一 个 或 者 多 个 索引 。Elasticsearch 可 以 对 一 个 或 者 多 个 索引 指定 别名 ， 通 过 别名 可 以 查询 到 一 个 或 者 多 个 索引 的 内 容 。 在 内 部 ，Elasticsearch 会 自动 把 别名 映射 


到 相应 的 索引 上 。 可 以 对 别名 编写 过 滤器 或 者 路 由 ， 在 系统 中 别名 不 


Abs 
Bes 


和 复 ， 也 不 能 和 索引 名 各 


复 。 其 实 Elasticsearch 的 别名 机 制 有 点 像 数 拉 


请 求 : POST http://127.0.0.1:9200/_aliases 


居 库 中 的 视 


。 例 如 : 为 索引 test1 增 加 一 个 别名 alias1。 


参数 
"actions" : [{ "add" : "index" : "secisland", "alias" : "alias1" } 
} 
删除 别名 : 与 请 求 是 一 样 的， 参数 不 一 样 : 
{ 
"actions" : [{ "remove" : { "index" : "test1", "alias" : "alias1" }] 


} 


注意 : 别名 没有 修改 的 语法 ， 当 需要 修改 别名 的 时 候 ， 可 以 先 删除 别名 ， 然 后 再 增加 别名 ， 例 如 : 


{ 


"actions" : [ 
{ "remove" : { "index" : "test1", "alias" : "alias" e 
{ "add" : { "index" : "testl", "alias" : "alias2" } } 
] 
} 
一 个 别名 关联 多 个 索引 : 
{ 
"actions" : [ 
{ "add" : { "index" : "testl", "alias" : "alias1i" } }, 
{ "add" : { "index" : "test2", "alias" : "aliasl" } } 


或 者 


下 面 的 语法 : 


{ 


"actions" : [ 


{ 
} 


"add" : { "indices" : 


["test1", 


"test2"], 


"alias" ; 


"alias" 


} 


D 


或 者 使 用 通配符 : 


{ 
"actions" : [ 
{ "add" : { "index" : "test*", "alias" : "all_test_indices" } }] 


Ore 通配符 指定 的 索引 只 是 在 当前 生效 ， 后 面 添加 的 索引 不 会 被 自动 添加 到 别名 上 。 对 某 一 别名 做 索引 的 时 候 ， 如 果 该 别名 关联 多 个 索引 会 报错 。 


1. 过 滤 索 引 别名 


通过 过 滤 索 引 来 指定 别名 提供 了 对 索引 查看 的 不 同 视图 ， 该 过 滤器 可 以 使 用 查询 DSL 来 定义 适用 于 所 有 的 搜索 ， 计 数 ， 查 询 删除 等 ， 以 及 更 多 类 似 这 样 的 与 此 别名 的 操作 。 


要 创建 一 个 带 过 滤 的 别名 ， 首 先 我 们 需要 确保 了 映射 中 已 经 存在 需要 过 滤 的 字段 : 


创建 一 个 索引 ， 请 求 : PUT http://127.0.0.1:9200/test1, 


参数 
{ 
"mappings": { 
"typel": { 
"properties": { 
"user" : {"type": "string","index": "not_analyzed"} 


} 
} 
} 
} 


创建 过 滤 别 名 ， 请 求 : POST http://127.0.0.1:9200/_aliases, 


"actions" : I 
{"add" : {"index" : "test1","alias" : "alias2", 
"filter" : { "term" : { "user" : "kimchy" }}} 


通过 别名 也 可 以 和 路 由 关联 ， 此 功能 可 以 和 过 滤 别 名 命令 一 起 使 用 ， 以 避免 不 必要 的 碎片 操作 。 例 如 : 


请 求 : POST http://127.0.0.1:9200/_aliases 


"actions" : [ 
{"add" : {"index" : "test","alias" i "aliasl","routing" : "1"}} 


] 


同时 可 以 指定 搜索 路 由 或 者 查询 路 由 ， 例 如 参数 : 


{ 
"actions" : [ 
{"add" : {"index" : "test","alias" : "alias2","search_routing" : "1,2", 
“index routing" : "2"}} 


e 搜索 路 由 可 以 指定 多 个 值 ， 索 引路 由 只 能 指定 一 个 值 。 如 果 使 用 路 由 别名 操作 的 同时 还 有 路 由 参数 ， 则 结果 是 别名 路 由 和 路 由 的 交集 。 例 如 以 下 命令 将 使 用 “2” 作 为 路 由 值 : 


GET http://127.0.0.1:9200/alias2/_search?q=user: kimchy&routing=2, 3 


通过 参数 添加 别名 。 

语法 : 请 求 PUT/{index}/_alias/{name} 

BR: {"routing":"1", "filter"} 

条 件 解 释 : 

“ index: 参照 的 索引 ， 可 以 使 用 ，_ 巴 ， 正 则 表达 式 或 者 过 号 分 开 的 多 个 namel ，name2，… 
` name: 别名 的 名 称 。 

‘routing: 别名 对 应 的 路 由 。 

filter: 指定 别名 时 候 的 过 滤 条 件 。 

例如 : PUT http://127.0.0.1:9200/secisland/_alias/2013 

例如 一 个 索引 。 


请 求 : PUT http://127.0.0.1:9200/secisland 


{ 
"mappings" : { 
"secilog" : { 
"properties" : {"user_id" : {"type" : "integer"}} 


指定 别名 : 


请 求 : PUT http://127.0.0.1:9200/secisland/_alias/user_12 


{ 


"routing" : "12", 
wWridtcer" rf 
"term" : {"user_id" : 12} 
} 
} 
建 索引 的 时 候 同时 指定 别名 
例如 : 


请 求 : PUT http://127.0.0.1:9200/secisland 


{ 
"mappings" : { 
"type" : { 
"properties" : {"year" : {"type" : "integer"}} 
} 


"aliases" : { 
"current_day" : {}, 
"2014" ct 
"filter" : {"term" : {"year" : 2014 }} 
} 
} 
} 


2. 删 除 别名 
语法 : DELETE http://{host}:{port}/{index}/_alias/{name} 
例如 : DELETE http://127.0.0.1:9200/secisland/_alias/user_12 
3 .查询 现 有 的 别名 
可 以 通过 索引 名 或 者 别名 进行 查询 。 参 数 如 下 : 
“index: 索引 别名 的 名 称 。 部 分 名 称 支 持 通配符 ， 用 运 号 分 隔 也 可 以 指定 多 个 索引 名 称 ， 还 可 以 使 用 索引 的 别名 名 称 。 
‘alias: 在 响应 中 返回 的 别名 名 称 。 该 参数 支持 通配符 和 用 运 号 分 隔 的 多 个 别名 。 
` ignore_unavailable: 如 果 一 个 指定 的 索引 名 称 不 存在 该 怎么 办 。 如 果 设置 为 tue， 那 么 这 些 索引 将 被 忽略 。 
语法 : GET http://{host}:{port}/{index}/_alias/{alias} 
例如 : GET http://127.0.0.1:9200/secisland/_alias/* 


返回 值 : 


"secisland" : { 
"aliases" : { 
"user 13": { 
"filter" : {"term" : {"user_id" : 13}}, 
"index routing" : "13", 
"search routing" : "13" 


hy 

"user 14" : { 
"filter" : {"term" : {"user_id" : 14}}, 
"index routing" : "14", 
"search routing" : "14" 

} 

} 
} 
} 


下 面 的 例子 中 包括 所 有 别名 为 2013 的 。 
请 求 : GET http://127.0.0.1:9200/_alias/2013 


返回 值 : 


{ 
"logs 201304" : { 
"aliases" : {"2013" : { }} 


hr 
"logs 201305" : { 
"aliases" : {"2013" : { }} 
} 
} 


请 求 : GET http://127.0.0.1:9200/_alias/2013_01* 


返回 : 


{ 
"logs 20130101" : { 
"aliases" : {"2013 01" : { }} 
} 
} 


用 HEAD 也 可 以 检查 别名 是 否 存在 ， 语 法 和 GET 类 似 ， 例 如 : 


HEAD http://127.0.0.1:9200/_alias/2013 


HEAD http://127.0.0.1:9200/_alias/2013_01* 
HEAD http://127.0.0.1:9200/users/_alias/* 


24 索引 配置 


在 Elasticsearch 中 索引 有 很 多 的 配置 参数 ， 有 些 配 置 是 可 


以 在 建 好 索引 后 和 


新 进行 设置 和 管理 的 ， 比 如 索引 的 副本 数量 、 索 引 的 分 词 等 ， 本 节 主 要 介绍 索引 的 参数 设置 。 


2.5 索引 监控 


在 Elasticsearch 中 ， 系 统 提供 了 接口 来 监控 索引 的 状态 ， 包 括 索 引 的 统计 信息 、 碎 片 信息 、 恢 复 的 状态 和 分 片 的 信息 ， 利 用 这 些 接口 可 以 随时 监控 系统 索引 的 状态 。 


2.6 ”状态 管理 


在 Elasticsearch 中 还 有 一 些 和 索引 相关 的 重要 接口 需要 介绍 ， 这 些 接口 包括 清除 索引 缓存 、 索 引 刷新 、 冲 洗 索 引 、 合 并 索引 接口 等 ， 下 面 分 别 介绍 。 


27 ”文档 管理 


文档 是 具体 的 数据 ， 一 个 文档 有 点 像 数据 库 中 的 一 条 记录 ， 文 档 必 须 包 含 在 一 个 索引 中 。 


28 NS 


本 章 介 绍 了 Elasticsearch 的 索引 相关 的 知识 ， 包 括 索引 管理 、 索 引 映 射 管理 等 索引 高 级 用 法 。 索 引 别名 管理 、 类 似 数据 库 的 索引 可 以 管理 多 个 索引 。 索 引 监 控 、 索 引 状 态 管理 ; 最 后 介绍 了 文档 的 详细 


操作 ， 通 过 以 上 介绍 基本 上 可 以 对 Elasticsearch 进 行 基本 的 使 用 。 


下 一 章节 重点 介绍 Elasticsearch 的 映射 ， 通 过 映射 可 以 了 


解 Elasticsearch 内 部 


结构 。 


第 3 章 ”映射 


映射 是 定义 存储 和 索引 的 文档 类 型 以 及 字段 的 过 程 。 索 引 中 的 每 一 个 文档 都 有 一 个 类 型 ， 每 种 类 型 都 有 它 自己 的 映射 。 一 个 映射 定义 了 文档 结构 内 每 个 字段 的 数据 类 型 。 映 射 通过 配置 来 定义 字段 类 型 


与 该 类 型 相关 联 的 元 数据 的 关系 。 例 如 ， 可 以 通过 映射 来 定义 日 期 类 型 的 格式 、 数 字 类 型 的 格式 或 者 文档 中 所 有 字段 的 值 是 否 应 该 被 _all 字 段 索 引 等 。 本 章 将 介绍 映射 的 概念 、 参 数 ， 以 及 动态 映射 的 使 


等 。 


3.1 概念 


1. 映 射 类 型 


每 个 索引 拥有 一 个 或 多 个 映射 类 型 ， 用 来 在 索引 中 将 文档 


每 个 映射 类 型 拥有 : 


划分 为 不 同 的 逻辑 组 。 


AFR: 用 来 定义 如 何 处 理 文档 的 元 数据 。 元 字段 包括 文档 的 _index 字 段 、_type 字 段 、_id 字 段 和 _source 字 段 。 


“ 字段 或 属性 : 每 个 映射 类 型 包含 与 类 型 相关 的 字段 或 属性 列表 。 同 一 索引 中 不 同 映射 类 型 的 相同 名 称 字段 必须 拥有 相同 的 映射 。 


2. 字 段 数据 类 型 


每 个 字段 拥有 一 个 数据 类 型 ， 可 以 是 简单 数据 类 型 ， 比 如 


字符 串 型 (String) 、 


期 型 (date) 、 长 整 型 (long) 、 双 精度 浮 点 型 (double) 、 布 尔 型 (boolean) 或 者 IP。 


支持 JSON 的 层次 性 类 型 ， 比 如 对 象 (object) . RE (nested) ， 或 者 特定 的 类 型 ， 比 如 地 理 点 (geo_point) 、 地 理 形状 (geo_shape) 。 


基于 不 同 目的 对 同一 个 字段 进行 不 同方 式 的 索引 是 很 有 
器 或 者 法 语 分 析 器 对 字符 串 字段 进行 索引 。 


一 个 数据 类 型 通过 fields 参 数 支 持 多 字段 。 


的 。 例 如 ， 一 个 字符 


类 型 字段 可 以 在 全 文 搜索 中 作为 分 析 字段 ， 在 排序 或 聚合 时 作为 不 分 析 的 字段 。 或 者 ， 可 以 通过 标准 分 析 器 、 英 文 分 析 


字段 和 映射 类 型 在 使 用 前 不 需要 事先 定义 。 依 靠 动 态 映射 ， 通 过 索引 文档 ， 新 的 映射 类 型 和 字段 名 会 自动 添加 。 新 的 字段 可 以 添加 到 顶级 映射 类 型 或 者 映射 内 部 的 对 象 和 谋 入 字段 。 


动态 映射 可 以 配置 自 定义 映射 用 于 新 类 型 或 者 新 字段 。 


4. 显 式 映射 


相对 于 Elasticsearch 来 说 ， 我 们 对 于 数据 类 型 的 掌控 更 加 全 面 ， 所 以 我 们 可 以 指定 显 式 映 射 而 不 是 使 用 动态 映射 。 


当 创建 索引 的 时 候 ， 可 以 创建 映射 类 型 和 字段 。 也 可 以 在 当前 的 索引 中 通过 映射 创建 接口 添加 映射 类 型 和 字段 。 


5. 更 新 当前 映射 


除了 记录 之 外 ， 现 有 的 映射 类 型 和 字段 不 能 更 新 。 修 改 映射 意味 着 废弃 已 经 索引 的 文档 ， 我 们 反而 应 该 根据 映射 创建 新 的 索引 并 且 重 新 索引 数据 。 
6. 映 射 类 型 之 间 共 享 字段 
映射 类 型 在 每 个 索引 中 是 唯一 的 ， 就 是 在 一 个 索引 的 多 个 类 型 中 ， 如 果 多 个 类 型 中 的 映射 名 称 一 样 ， 则 它 必 须 是 相同 的 类 型 。 


例如 : 如 果 一 个 title 字 段 同 时 存在 于 user 和 blogpost 映 射 类 型 中 ，title 字 段 在 每 个 类 型 中 必须 拥有 相同 的 映射 。 这 个 规则 的 唯一 例外 是 : 对 于 copy_to 参 数 、dynamic 参 数 、enabled 参 数 、 
ignore_above 参 数 ，include_in_all 参 数 ， 每 个 不 同 映射 类 型 中 的 字段 拥有 不 同 的 参数 设置 。 


通常 ， 相 同名 称 的 字段 由 相同 类 型 的 数据 构成 ， 所 以 拥有 相同 的 索引 是 没有 问题 的 。 当 产生 类 型 冲突 的 时 候 ， 可 以 选择 更 详细 的 命名 ， 比 如 user title 和 blog title, 
7. 映 射 示例 


当 创建 索引 的 时 候 ， 可 以 指定 映射 : 


请 求 : PUT http://127.0.0.1:9200/secisland 


{ 


"mappings": { 
"user": { 
"all": { "enabled": false }, 
"properties": { 
"title": { "type": "string" }, 
"name": { "type": "string" }, 
"age": { "type": "integer" } 


tr 
"blogpost": { 
"properties": { 
"title": { "type": "string" }, 


"body": { "type": "string" }, 
"user_id": {"type": "string", "index": "not_analyzed"}, 
"created": { 

"type": "date", 

"format": "strict_date_optional_time| |epoch_millis" 


上 面 的 接口 表示 创建 一 个 名 为 secisland 的 索引 ， 在 索引 中 添加 名 为 user 和 blogpost 的 映射 类 型 。user 上 映射 类 型 取消 元 字段 all， 指 定 了 每 个 映射 类 型 的 字段 或 属性 ， 指 定 了 每 个 字段 的 数据 类 型 和 映 


3.2 ”字段 数据 类 型 


Elasticsearch 支 持 一 系列 不 同 的 数据 类 型 来 定义 文档 字段 ， 分 为 核心 数据 、 复 杂 数 据 、 地 理 数 据 、 专 门 数据 类 型 。 
核心 数据 类 型 包括 : 

- 字符 串 数据 类 型 : string 

` 数字 型 数据 类 型 : long、integer、short、byte、double、float 

“日 期 型 数据 类 型 : date 


“布尔 型 数据 类 型 : boolean 


“二进制 数 据 类 型 : binary 


W 


杂 数 据 类 型 包括 : 

“ 数组 数据 类 型 : 不 需要 专门 的 类 型 来 定义 数组 。 
` 对 象 数据 类 型 : object， 单 独 的 JSON 对 象 。 

` 庶 套 数据 类 型 : nested， 关 于 JSON 对 象 的 数组 。 
地 理 数 据 类 型 包括 : 

. 地 理 点 数据 类 型 : geo_point， 经 纬 点 。 


: 地 理 形状 数据 类 型 : geo_shape， 多 边 形 的 复杂 地 理 形状 。 


专门 数据 类 型 包括 : 
“ IPv4 数 据 类 型 : IP 协 议 为 IPv4 的 地 址 。 


` 完成 数据 类 型 : completion， 提 供 自 动 补 全 的 建议 。 


- 单词 计数 数据 类 型 : token_count， 统 计 字符 串 中 的 单词 数量 。 


3.3 元 字段 


每 个 文档 都 有 与 之 关联 的 元 数据 ， 元 字段 是 为 了 保证 系统 正常 运转 的 内 置 字段 ， 比 如 _index 表 示 索 引 字段 ，_type 表 示 映 射 类 型 字段 和 _id 表 示 文 档 主键 字段 ， 这 些 字段 都 是 以 下 划 线 开头 的 。 当 映射 类 


型 被 创建 的 时 候 ， 可 以 自 定义 一 些 元 字段 的 行为 ， 例 如 标识 元 字段 、 文 档 来 源 元 字段 、 索 引 元 字段 、 路 由 元 字段 等 。 参 见 表 3-12 到 表 3-16。 


_source 


_size 


_all 


_field names 


表 3-12 标识 元 字段 
说 明 
文档 所 属 的 索 弓 
包含 type 和 id 的 混合 字段 
文档 的 映射 类 型 
文档 的 ID 
表 3-13 文档 来 源 元 字段 
说 明 
作为 文档 内 容 的 原始 JSON 
_source 元 字段 占用 的 字 节 数 ， 通 过 mapper-size 插件 提供 
表 3-14 索引 元 字段 
说 明 
索引 所 有 字段 的 值 
文档 中 所 有 包含 非 空 值 的 字段 


_timestamp 


ttl 


参数 
_parent 


_routing 


_meta 


关联 文章 的 时 间 截 ， 可 以 手动 指定 或 者 自动 生成 
定义 文档 被 自动 删除 之 前 的 存活 时 间 
表 3-15 路 由 元 字段 
说 明 
用 于 在 映射 类 型 之 间 创 建 父子 关系 
-个 自 定 义 的 路 由 值 ， 路 由 文档 到 一 个 特定 的 分 片 


表 3-16 ”其 他 元 字段 


应 用 特定 的 元 字段 


下 面 介绍 一 些 常用 字段 。 


3.4 ”映射 参数 


于 字段 映射 的 参数 ， 对 部 分 或 全 部 字段 数据 类 型 是 通 


常 强大 ， 光 映射 参数 高 达 28 个 ， 下 面 将 一 一 介绍 这 些 参数 的 用 途 


3.5 ”动态 映射 


的 。 映 射 参 数 对 字段 映射 的 特殊 需求 进行 设置 ， 比 如 设置 字段 的 分 词 ， 字 段 的 权重 ， 是 否 被 索引 ， 日 期 的 格式 ， 等 等 ，Elasticsearch 的 功能 非 


在 Elasticsearch 中 可 以 不 事先 建 好 索引 结构 ， 在 使 用 的 时 候 可 以 直接 插入 文档 到 索引 中 ， 系 统 会 根据 文档 的 内 容 自动 进行 索引 结构 的 动态 映射 ， 这 样 就 极 大 地 简化 了 索引 的 操作 。 


3.6 小 结 


本 章 介绍 了 Elasticsearch 的 映射 ， 映 射 是 Elasticsearch 内 部 结构 对 外 的 一 个 展现 方式 ， 通 过 本 章 的 学 习 可 以 了 解 Elasticsearch 所 支持 字段 的 数据 类 型 ， 以 及 Elasticsearch 内 置 的 元 数据 的 知识 ;每 一 个 
类 型 都 支持 很 多 的 参数 ， 通 过 参考 可 以 控制 Elasticsearch 的 很 多 行为 ， 比 如 是 否 索引 等 ; 同时 Elasticsearch 也 是 非常 智能 的 ， 默 认 情况 下 ， 映 射 可 以 自动 创建 ， 并 且 可 以 很 好 地 工作 。 


第 4 章 搜索 


前 面 的 章节 主要 介绍 了 Elasticsearch 的 索引 和 映射 ， 但 这 两 个 内 容 只 解决 存储 的 问题 ， 在 使 用 Elasticsearch 的 时 候 ， 大 部 分 是 和 搜索 相关 的 内 容 。 本 章 开始 介绍 Elasticsearch 的 搜索 功能 ， 通 过 本 章 的 
学 习 可 以 详细 了 解 搜索 的 语法 和 查询 专用 语言 (DSL) 的 相关 知识 。 
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4.1 深入 搜索 


之 前 简单 介绍 过 搜索 ， 在 这 里 对 搜索 进行 详细 的 介绍 。 包 括 搜索 详细 参数 ， 利 用 重新 评分 对 短语 进行 搜索 ， 通 过 滚动 查询 对 索引 进行 全 量 搜索 ， 对 索引 文档 中 的 隐藏 参数 进行 查询 ， 介 绍 在 搜索 中 用 到 
的 常用 函数 和 搜索 模板 。 


4.2 查询 DSL 


本 节 主 要 介绍 Elasticsearch 查 询 [DSL (Domain-specific Language) 的 相关 知识 点 ，DSL 查 询 在 Elasticsearch 中 是 最 基本 也 是 最 重要 的 功能 。 首 先 介绍 在 Elasticsearch 中 查询 和 过 滤 的 区 别 ， 然 后 介绍 
不 同类 型 查询 的 方法 ， 最 后 介绍 在 查询 中 如 何 进行 高 亮 显示 。 


4.3 ”简化 查询 


Elasticsearch 提 供 了 一 套 精简 AP| 来 查看 系统 的 状态 ， 官 方 的 文档 叫 cat API。 主 要 是 由 于 Elasticsearch 默 认 接口 返回 的 都 是 JSON 格 式 的 ， 这 种 格式 不 利于 人 类 的 阅读 ， 所 以 搞 出 来 一 套 cat APl 来 进行 
简化 。 


每 个 命令 都 是 以 /_cat 开 头 ， 可 以 接收 v 参 数 得 到 详细 输出 ; 可 以 通过 help 参 数 得 到 每 列 的 帮助 信息 。 可 以 通过 h= 参 数 名 返回 部 分 内 容 ， 多 个 参数 可 以 用 逗号 分 开 ， 甚 至 可 以 支持 通配符 。 例 如 : 


请 求 : GET http://127.0.0.1:9200/_cat/master?v 


返回 值 : 


id host ip node 
jJevOOqVOT_a_pAGQKAOp7w 127.0.0.1 127.0.0.1 Artemis 


查询 帮助 实例 : 


请 求 : GET http://127.0.0.1:9200/_cat/master?help 


id | | node id 
host | h | host name 
ip | | ip address 


node | n | node name 


可 以 对 系统 的 大 部 分 内 部 结构 进行 简化 查询 ， 比 如 索引 信息 、 节 点 信息 ， 这 些 内 部 结构 简称 指标 ， 简 化 查询 的 指标 见 表 4-5。 


RAS 简化 查询 指标 


指标 说 明 
aliases 别名 ， 关 于 别名 的 一 些 信息 ， 包 括 过 滤 和 路 由 等 信息 ， 可 以 在 最 后 加 上 具体 别名 的 名 称 单 
独 查 询 某 个 具体 的 别名 
allocation 每 个 数据 节点 拥有 多 少 分 片 快 照 和 它们 使 用 的 磁盘 空间 大 小 
count 节点 的 文档 总 数 ， 如 果 后 面 加 上 索引 名 称 ， 可 以 得 到 具体 索引 的 文档 数量 
fielddata 在 集群 中 的 每 个 数据 节点 上 正在 使 用 的 堆 内 存 的 大 小 
health 集群 的 健康 情况 
indices 节点 下 的 索引 信息 ， 可 以 得 到 索引 的 分 片 、 文 档 、 存 储 大 小 等 信息 


master 显示 master 节点 的 概要 信息 ， 主 要 是 id、ip 和 节点 名 称 
nodeattrs 显示 自 定义 节点 属性 
nodes 显示 节点 相关 的 信息 


pending tasks 集群 任务 接口 ， 和 集群 接口 类 似 ， 参 见 集群 任务 文档 
plugins 提供 集群 中 插件 安装 的 信息 


recovery 正在 进行 和 以 前 完成 的 索引 分 片 的 回收 率 
Tepositories 显示 在 集群 中 注册 的 快照 库 
thread pool 显示 每 个 集群 节点 的 线程 池 统 计 


shards 索引 分 厂 的 使 用 情况 分 片 有 很 多 的 指标 ， 可 以 用 help 查看 
segments 每 个 索引 分 片 中 低 水 平 段 的 信息 
snapshots 显示 仓库 的 快照 信息 


下 面 分 别 介绍 其 中 的 常用 简化 查询 指标 。 


1.indices 


indices 有 非常 多 的 参数 可 以 选择 ， 具 体 用 help 查 看 。 例 如 : 


请 求 : GET http://127.0.0.1:9200/_cat/indices?pri&v&h=health, index, prirep, docs.count, mt 


返回 值 : 

health index docs.count mt pri.mt 
yellow customer 5 0 0 
green .Scripts 2 0 0 
green secilog 2 0 0 
yellow secisland 4 0 0 


2.nodes 
nodes 有 非常 多 的 参数 可 以 选择 ， 具 体 用 help 查 看 。 例 如 : 
请 求 : GET http://127.0.0.1:9200/_cat/nodes?v&h=id, ip, port, v, m, jdk 


返回 值 : 


id i port v m jdk 
qKTT 17. 0-0.1 9300 2.2.0 * 1.7.0_79 


3.recovery 
在 一 个 集群 中 ， 一 个 索引 的 分 片 可 能 随时 会 从 一 个 节点 迁移 到 另 一 个 节点 ， 比 如 在 恢复 快照 的 过 程 中 ， 新 节点 启动 的 过 程 中 ， 等 等 。 例 如 下 面 的 示例 表示 没有 任何 分 片 的 数据 在 传输 。 


请 求 : GET http://127.0.0.1:9200/_cat/recovery/secisland?v 


返回 值 : 

index shard time type stage Source host target_host repository snapshot files 
secisland 0 26 store done 127.0.0.1 127.0.0.1 n/a n/a 0 
secisland 1 46 store done 127.0.0.1 127.0.0.1 n/a n/a 0 
secisland 2 31 store done 127.0.0.1 127.0.0.1 n/a n/a 0 
secisland 3 32 store done 127.0.0.1 127.0.0.1 n/a n/a 0 
secisland 4 25 store done 127.0.0.1 127.0.0.1 n/a n/a 0 
files percent SH by s percent total_files total_bytes translog translog_percent total_translog 
0.0% 0 0 0 100.0% 0 

0.0% 0 E 08 0 0 0 100.0% 0 

0.0% 0 0.0% 0 0 0 100.0% 0 

0.0% 0 0.0% 0 0 0 100.0% 0 

0.0% 0 0.0% 0 0 0 100.0% 0 


通过 增加 副本 节点 的 数量 可 以 让 分 片 的 数据 进行 传输 。 


例如 : 


index shard time type stage source target files percent bytes percent 
wiki 0 1252 store done hostA hostA 4 100.0% 23638870 100.0% 
wiki 0 1672 replica index hostA hostB 4 75.0% 23638870 48.8% 
wiki 1 1698 replica index hostA hostB 4 75.0% 23348540 49.4% 
wiki 1 4812 store done hostA hostA 33 100.0% 24501912 100.0% 
wiki 2 1689 replica index hostA hostB 4 75.0% 28681851 40.2% 
wiki 2 5317 store done hostA hostA 36 100.0% 30267222 100.0% 


4.thread pool 


thread pool (线程 池 ) 有 非常 多 的 参数 可 以 选择 ， 具 体 用 help 查 看 。 例 如 : 


请 求 : GET http://127.0.0.1:9200/_cat/thread_pool?v&h=id, host, suggest.active, suggest.rejected, suggest.completed 


返回 值 : 


id host suggest.active suggest.rejected suggest.completed 
QKTT 127.0.0.1 0 0 0 


44 小结 


本 章 介绍 Elasticsearch 中 搜索 相关 的 知识 ， 包 括 通过 参数 查询 和 DSL 语 言 进行 查询 。 通 过 本 章 可 以 了 解 到 查询 的 内 部 知识 和 相关 的 高 级 用 法 。 同 时 Elasticsearch 还 提供 了 简化 查询 方法 来 简化 查询 。 


聚合 是 一 种 基于 搜索 的 数据 汇总 ， 通 过 组 合 可 以 完成 复杂 的 操作 。 聚 合 可 以 对 文档 中 的 数据 进行 统计 汇总 、 分 组 等 ， 对 一 个 聚合 进行 操作 可 以 看 作 在 一 组 文档 中 分 析 数 据 。 本 章 主 要 介绍 聚合 相关 的 知 


识 ， 包 括 聚合 的 分 类 、 度 量 聚合 、 分 组 聚合 和 管道 聚合 。 


5.1 聚合 的 分 类 


系统 中 有 不 同类 型 的 聚合 ， 每 种 都 有 特定 的 用 途 和 输出 结果 。 为 了 更 好 地 理解 这 些 类 型 ， 通 常 将 聚合 分 为 三 大 类 : 


“ 度量 聚合 一 一 在 一 组 文档 中 对 某 一 个 数字 型 字段 进行 计算 得 出 指标 值 。 


: 分 组 聚合 一 一 创建 多 个 分 组 ， 每 个 分 组 都 关联 一 个 关键 字 和 相关 文档 标准 。 当 聚合 执行 的 时 候 ， 所 有 的 分 组 会 根据 自身 标准 评估 每 一 个 符合 的 文档 。 当 文档 匹配 分 组 标准 的 时 候 ， 会 将 文档 划分 进 相 


关 的 分 组 里 。 聚 合 进 行 完 成 时 ， 会 给 出 一 个 分 组 列表 ， 每 一 个 分 组 都 会 有 一 组 “属于 ” 它 的 文档 。 


“ 管道 聚合 一 一 这 一 类 聚合 的 数据 源 是 其 他 聚合 的 输出 ， 然 后 进行 相关 指标 的 计算 。 


除 此 之 外 ， 还 可 以 在 分 组 聚合 的 基础 上 添加 聚合 并 执行 ， 这 就 是 聚合 的 说 套 ， 通 过 嵌 套 可 以 完成 很 多 复杂 的 聚合 操作 ! 


Geax 分 组 聚合 可 以 拥有 子 聚合 (分 组 聚合 或 者 度量 聚合 ) , SSES SE én, PEROKHYKF REA REAREA (TUE—- NR” REFRE-ARSEATFRE) © 


聚合 操作 的 基本 结构 : 
"aggregations" : { 
"<aggregation_name>" : { 
"<aggregation_type>" : {<aggregation_body>} 
[,"meta" : { [<meta data body>] } 1? 
[, "aggregations" : { [<sub_aggregation>]+ } ]? 
[,"<aggregation_name_2>"_: { http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... } ]* 


聚合 操作 用 aggregations (也 可 以 简化 为 ggs) 关键 字 作为 开头 ， 操 作 的 对 象 是 JSON 数 据 结 构 。 每 一 个 聚合 关联 一 个 用 户 定义 的 逻辑 名 ( 即 上 面 代码 中 的 <aggregation_name> 标 签 ) 


(例如 ， 如 果 


聚合 计算 平均 价格 ， 可 能 命名 为 avg_price) 。 这 些 逻 辑 名 也 用 来 唯一 地 标识 响应 里 面 的 聚合 结果 。 每 一 个 聚合 拥有 一 个 特定 类 型 ( 即 上 面 代 码 中 的 <aggregation_type> 标 签 ) ， 通 常 作 为 聚合 的 第 一 个 关 
键 字 。 每 一 种 类 型 的 聚合 会 根据 聚合 的 性 质 定义 参数 (例如 ， 在 一 个 特定 字段 上 添加 平均 值 聚 合 ， 将 在 这 个 字段 上 面 进行 平均 值 的 计算 ) 。 当 定义 了 同一 级 别 的 聚合 且 类 型 是 分 组 聚合 的 时 候 ， 可 以 定义 一 


组 额外 的 聚合 。 在 这 种 情况 下 ， 在 分 组 聚合 的 级 别 上 定义 的 子 聚合 会 计算 所 有 的 分 组 聚合 执行 产生 的 分 组 。 举 个 例子 ， 如 果 在 范围 聚合 下 定义 了 一 组 聚合 ， 子 聚合 会 计算 所 有 的 范围 聚合 产生 的 分 组 。 


聚合 值 的 数据 源 : 一 些 聚合 针对 参与 聚合 的 文档 中 提取 出 来 的 值 进行 计算 。 通 常情 况 下 ， 这 些 值 是 从 特定 的 文档 字段 中 提取 出 来 的 。 也 可 以 定义 一 个 脚本 ， 针 对 每 一 个 文档 生成 这 些 值 。 


当 一 个 聚合 里 面 同时 包含 文档 字段 和 脚本 时 ， 脚 本 就 会 被 视 为 值 脚 本 。 普 通 脚本 在 文档 级 别 上 计算 值 〈 即 脚本 需要 访问 所 有 与 文档 相关 联 的 数据 ) ， 值 脚本 在 值 的 级 别 上 进行 计算 。 在 这 种 模式 下 ， 从 


配置 的 字段 中 提取 值 并 使 用 脚本 对 这 些 值 进行 “转换 ”。 


Gx 当 使 用 脚本 的 时 候 ， 依 然 可 以 定义 lang 和 params 设 置 。 前 者 定义 了 脚本 使 用 的 语言 (假设 适当 的 语言 在 Elasticsearch 中 可 见 ， 无 论 是 作为 默认 语言 还 是 作为 插件 ) 。 后 者 可 以 在 脚本 中 把 所 有 


的 “动态 ”表达 式 定义 为 参数 ， 这 样 就 可 以 确保 脚本 在 调用 期 间 保 持 不 变 ( 这 将 确保 缓存 编译 的 脚本 在 Elasticsearch 中 的 可 用 性 ) 。 


脚本 可 以 针对 每 个 文档 生成 一 个 或 多 个 值 。 当 生成 多 个 值 的 时 候 ， 可 以 使 用 script_values_sorted 设 置 来 表明 这 些 值 是 否 需要 进行 排序 。 本 质 上 ，Elasticsearch 处 理 排序 过 的 值 时 可 以 执行 优化 〈 例 如 ， 


执行 最 小 值 聚 合 的 时 候 ， 如 果 知 道 这 些 值 是 排序 过 的 ，Elasticsearch 就 会 跳 过 所 有 值 的 计算 过 程 ， 确 定 列表 中 的 第 一 个 值 就 是 所 有 文档 中 最 小 值 ) 。 


52 ”度量 聚合 


度量 聚合 从 文档 中 提取 出 来 值 并 进行 计算 。 这 些 值 通常 从 文档 中 的 字段 (使 用 数据 字段 ) 中 提取 出 来 ， 但 也 可 以 使 用 脚本 进行 计算 。 


数字 型 度量 聚合 是 一 种 特殊 类 型 的 度量 聚合 ， 输 出 数字 类 型 的 值 。 聚 合 输出 一 个 数字 指标 (例如 平均 值 聚 合 ) 称 为 单 值 数字 型 度量 聚合 ， 产 生 多 个 指标 值 (例如 统计 聚合 ) 称 为 多 值 数字 型 度量 聚合 。 
当 这 些 聚 合 直接 作为 一 些 分 组 聚合 的 子 聚 合 时 ， 单 值 和 多 值 数 字 型 度量 聚合 的 内 容 就 会 发 挥 巨大 的 作用 ， 例 如 分 组 聚合 可 以 对 度量 聚合 后 的 返回 的 值 进行 排序 。 


53 ”分 组 聚合 


分 组 聚合 不 像 度量 聚 合 那样 通过 字段 进行 计算 ， 而 是 根据 文档 创建 分 组 。 每 个 聚合 都 关联 一 个 标准 (取决 于 聚合 的 类 型 ) ， 决 定 了 一 个 文档 在 当前 的 条 件 下 是 否 会 “ 划 入 ”分 组 中 。 换 句 话说， 分 组 实 
际 上 定义 了 一 个 文档 集 。 除 了 这 些 分 组 之 外 ， 分 组 聚合 也 会 计算 和 返回 “ 划 入 ”每 个 分 组 中 文档 的 数量 。 


与 度量 聚合 不 同 ， 分 组 聚合 可 以 拥有 子 聚 合 。 这 些 子 聚合 可 以 聚合 由 它们 的 “ 父 ”聚合 创建 的 分 组 。 


分 组 聚合 有 不 同 的 类 型 ， 对 应 着 不 同 的 “分 组 ”策略 。 有 的 策略 定义 一 个 分 组 ( 单 分 组 聚合 ) ， 有 的 策略 定义 固定 数量 的 多 个 分 组 (多 分 组 聚合 ) ， 还 有 的 策略 在 聚合 执行 过 程 中 动态 地 创建 分 组 。 


54 管道 聚合 


zt 这 一 章 功能 都 是 实验 性 质 的 ， 在 将 来 的 版 本 中 可 能 会 被 修改 或 删除 。 


管道 聚合 工作 于 其 他 聚合 产生 的 输出 结果 而 不 是 文档 集 ， 


于 向 输出 树 添加 信息 。 有 不 同类 型 的 管道 聚合 ， 每 一 种 从 其 他 聚合 中 计算 不 同 的 信息 ， 这 些 类 型 分 为 如 下 两 大 类 : 


“ 父 类 聚合 一 一 在 父 隧 合 输出 结果 的 基础 上 进行 管道 聚合 ， 可 以 在 现 有 分 组 的 基础 上 计算 新 的 分 组 或 者 聚合 。 


“ 兄弟 聚合 一 一 在 兄弟 聚合 输出 结果 的 基础 上 进行 管道 聚合 ， 可 以 计算 与 兄弟 聚合 相同 等 级 的 新 聚合 。 


通过 bucket_path 参 数 指定 请 求 指标 的 路 径 ， 管 道 聚合 可 以 引用 需要 的 聚合 来 执行 计算 。 


管道 聚合 不 能 拥有 子 聚合 ， 但 是 可 以 在 buckets_path 参 数 中 引入 另 一 个 管道 聚合 ， 使 管道 聚合 链接 起 来 。 


Oza 因为 管道 聚合 仅 在 输出 结果 中 添加 信息 ， 当 链接 管道 聚合 的 时 候 ， 每 个 管道 聚合 的 输出 结果 都 会 被 包含 在 最 终结 果 里 。 


1.buckets_path 语 法 


大 多 数 管道 聚合 需要 另 一 个 聚合 作为 它 的 输入 。 输 入 聚合 通过 buckets_path 参 数 定义 ， 格 式 如 下 : 


“ 聚合 分 隔 符 为 > 


HARD AEA. 


“ 聚合 名 为 < 聚合 的 名 称 > 


“ 指标 为 < 指标 的 名 称 ( 如 果 是 多 值 度量 聚合 ) > 


. 路 径 为 < 聚合 名 >[< 聚 合 分 隔 符 >< 聚 合 名 >][< 指 标 分 隔 符 >< 指 标 >] 


举 个 例子 ， 路 径 “my_bucket>my _stats.avg” 会 将 “my_stats” 中 的 平均 值 指 标 作为 “my_bucket” 分 组 聚合 的 输入 。 


路 径 跟 管道 聚合 的 位 置 是 相对 的 ; 并 不 是 绝对 路 径 ， 而 且 路 径 不 能 沿 着 聚合 树 “ 向 上 ”返回 。 例 如 ， 在 日 期 直方 图 聚合 中 吝 入 移动 平均 值 聚 合 ， 并 指出 “兄弟 聚合 ”指标 “the_sum”: 


{ 
Dm dote histo":{ 
"date histogram": { 
"field":"timestamp", 
"interval": "day" 


i, 


Maggs": ( 
"the sum":{"sum":{ "field": "lemmings" } }, 
"the _movavg": {"moving_avg":{ "buckets_path": 


} 
} 
} 


"the sm } } 


buckets_path 通 过 一 个 相对 路 径 “the_sum” 指 出 聚合 指标 。 


buckets_path 也 用 于 兄弟 管道 聚合 ， 管 道 聚 合 是 “靠近 ” 


一 系列 分 组 聚合 而 不 是 嵌入 它们 “里面 ”。 


例如 ，max_bucket 聚 合 利用 buckets_path 指 定 了 一 个 嵌入 兄弟 聚合 的 指标 : 


{ 
"aggs" : { 
"sales per month" : { 
"date histogram" : { 
"field" : "date", 
"interval" : "month" 


field": "price" 


ty 
"max monthly sales": { 


"max bucket": { 
“buckets path": "sales per month>sales" 
} 
} 
} 
} 


2. 特 殊 路 径 


与 指标 路 径 不 同 ，buckets_path 可 以 使 用 特殊 的 “ count” 路 径 ， 让 管道 聚合 使 有 


体 的 指标 ， 示 例如 下 : 


文档 计数 作为 输入 参数 。 例 如 ， 移 动 平均 值 聚 合 可 以 计算 每 个 分 组 的 文档 计数 而 不 是 给 出 


{ 
"my_date histo":{ 

"date histogram":{ 
"field":"timestamp", 
"interval":"day" 

ty 

"Maggs": { 

"the _movavg": {"moving_avg":{ "buckets_path": 

} 

} 
} 


"count" } } 


3. 处 理 空 数据 


现实 世界 中 的 数据 通常 是 吐 杂 的 ， 有 时 候 还 会 存在 空 数据 


数据 根本 不 存在 。 这 可 能 有 各 种 各 样 的 原 


因 ， 最 常见 的 原 


ër 


FH 


ne 


“ 落 入 分 组 中 的 文档 不 包含 请 求 的 
“ 一 个 或 多 个 分 组 没有 匹配 到 文档 。 


“ 可 能 因为 其 他 依赖 的 分 组 缺失 了 数据 ， 被 计算 的 指标 无 法 产生 值 。 


来 通知 管道 聚合 当 遭 遇 到 数据 缺口 


缺口 策略 是 一 个 


"器 


` 插入 零 值 (insert_zeros) 


5.5 小结 
本 章 展示 了 Elasticsearch 的 强大 数据 分 析 能 力 : 聚合 ， 它 可 以 对 搜索 查询 的 结果 数据 进行 分 组 。 利 


本 章 将 介绍 与 集群 相关 的 内 容 : 集群 节点 监控 、 集 群 分 片 迁移 、 集 群 节点 配置 、 节 点 发 现 、 集 群 平衡 位 置 等 。Elasticsearch 正 是 利 


| 大 上 ea 
点 监控 


时 应 该 执行 哪 种 行为 的 机 制 。 所 有 的 管道 聚合 都 支持 gap_policy 参 数 指定 缺 


这 个 选项 会 用 零 替代 缺失 值 ， 而 且 管道 聚合 会 照常 进 


策略 。 现 在 有 两 种 缺口 策略 可 以 选择 : 


bat (skip) 一 一 这 个 选项 将 缺失 数据 的 分 组 视 为 不 存在 ， 会 跳 过 这 个 分 组 并 使 用 下 一 个 可 用 值 继 续 计算 。 


行 计 算 。 


简单 的 聚合 ， 建 立 复杂 的 数据 分 组 。 


第 6 章 ”集群 管理 


展 节点 ， 达 到 支持 海量 数据 的 能 力 。 


集群 进行 水 平 扩 


在 Elasticsearch 的 运行 期 间 ， 一 个 很 重要 的 方面 就 是 监控 。 这 使 得 系统 管理 员 能 够 检测 并 预防 可 能 性 的 问题 ， 或 至 少 知道 失败 时 会 发 生 什么 。Elasticsearch 提 供 了 非常 详细 的 信息 ， 使 你 能 够 检查 和 监 


控 单 个 节点 或 一 个 整体 的 集群 。 包 括 集群 的 健康 值 、 有 关 服 务 器 的 信息 、 节 点 信息 、 索 
关 的 ， 以 _nodes 开 头 ， 第 三 类 是 任务 相关 的 ， 已 tasks 开 头 。 


6.2 ”集群 分 片 迁移 


引 和 分 片 信息 等 。 对 Elasticsearch 监 控 的 API 主 要 有 三 类 : 一 类 是 集群 相关 的 ， 以 _cluster 开 头 ， 第 二 类 是 监控 节点 相 


在 Elasticsearch 中 可 以 通过 集群 路 由 API_cluster/reroute 来 对 集群 中 的 分 片 进 行 操作 ， 例 如 可 以 在 集群 中 把 一 个 分 片 从 一 个 节点 迁移 到 另 一 个 节点 ， 将 未 分 配 的 分 片 可 以 分 配 到 一 个 特定 节点 上 等 。 不 
过 要 想 完 全 手动 ， 必 须 先 把 cluster.routing.allocation.disable_allocation 参 数 设 置 为 trtue， 禁 止 ES 进 行 自动 索引 分 片 分 配 ， 否 则 你 从 A 节点 把 分 片 移 到 B 节 点 ， 那 么 另外 一 个 节点 的 一 个 分 片 又 会 移 到 A 节 


请 求 : POST http://127.0.0.1:9200/_cluster/reroute 


{ 


"commands" : [ { 
"move" : 
{"index" : "test", "shard" : 0, 
"from node" : "nodel", "to noden : "node2"} 
hy 
"allocate" : {"index" : "test", "shard" : 1, "node" : "node3"} 


一 共有 三 种 操作 移动 (move) 、 取 消 (cancel) 和 分 配 (allocate) 


。 下面 分 别 介绍 这 三 种 情况 : 


“移动 (move) 


把 分 片 从 一 节点 移动 到 另 一 个 节点 。 可 以 指定 索引 名 和 分 片 号 。 


“ 取消 (cancel) 取消 分 配 一 个 分 片 。 可 以 指定 索引 名 和 分 片 号 。node 参 数 可 以 指定 在 哪个 节点 取消 正在 分 配 的 分 片 。alow_primary 参 数 支持 取消 分 配 主 分 片 。 


:分配 (allocate) 


分 配 一 个 未 分 配 的 分 片 到 指定 节点 ， 可 以 指定 索引 名 和 分 片 号 。node 参 数 指定 分 配 到 哪个 节点 ; alow_primary 参 数 可 以 强制 分 配 主 分 片 ， 不 过 这 样 可 能 导致 数据 丢失 。 因 为 
allow_primary 参 数 将 使 一 个 新 的 空 主 分 片 被 分 配 ， 如 果 有 一 份 原始 的 分 片 副本 (包括 数据 ) 的 节点 重新 加 入 集群 ， 分 片 副本 数据 将 被 删除 : 旧 的 分 片 副 本 将 会 被 新 的 活动 分 片 副 本 替换 。 


集群 配置 更 新 : 系统 允许 对 集群 的 配置 进行 更 新 。 配 置 更 新 有 两 种 状态 ， 一 是 持久 的 ， 二 是 临时 的 ,例如 : 


请 求 : PUT 127.0.0.1:9200/_cluster/settings 


d 
"persistent" : {"discovery.zen.minimum_master_nodes" : 2} 


} 


上 面 的 例子 是 持久 更 新 配置 ， 如 果 把 参数 persistent 换 成 了 transient， 就 是 临时 更 新 。 


6.3 ”集群 节点 配置 


当 我 们 启动 Elasticsearch 的 实例 ， 就 会 启动 至 少 一 个 节点 。 相 同 集群 名 的 多 个 节点 的 连接 就 组 成 了 一 个 集群 ， 在 默认 情况 下 ， 集 群 中 的 每 个 节点 都 可 以 处 理 HTTP 请 求 和 集群 节点 的 数据 传输 。 集 群 中 所 
有 的 节点 都 知道 集群 中 其 他 所 有 的 节点 ， 可 以 将 客户 端 请 求 转发 到 适当 的 节点 。 节 点 有 以 下 类 型 : 


“数据 (data) 节点 : 在 一 个 节点 上 node.data 设 置 为 true (RU) 的 时 候 。 该 节点 保存 数据 和 执行 数据 相关 的 操作 ， 如 增删 改 查 、 搜 索 和 聚合 。 


默认 情况 下 ， 节 点 同时 是 主 节点 和 数据 节点 ， 这 是 非常 方便 的 小 集群 ， 但 随 着 集群 的 发 展 ， 分 离 主 节点 和 数据 节点 将 变 得 非常 重要 。 


: 部 落 节点 : 当 一 个 节点 配置 tribe.* 的 时 候 ， 它 是 一 个 特殊 的 客户 端 ， 它 可 以 连接 多 个 集群 ， 在 所 有 连接 的 集群 上 执行 搜索 和 其 他 操作 。 


客户 端 节点 在 搜索 请 求 或 批量 增加 索引 请 求 等 可 能 涉及 在 不 同 数据 节点 上 的 操作 。 这 些 请 求 会 分 成 两 个 阶段 ， 一 是 接收 客户 端的 请 求 ， 二 是 协调 节点 执行 相关 操作 。 当 数据 分 散在 不 同 的 节点 上 时 ， 协 


调节 点 将 请 求 转发 到 数据 节点 ， 每 个 数据 节点 在 本 地 执行 请 求 并 把 结果 传输 给 协调 节点 ， 然 后 协调 节点 收集 各 个 数据 节点 的 结果 转换 成 单个 请 求 结果 返回 。 所 以 需要 客户 端 有 足够 的 内 存 和 CPU 来 处 理 各 个 
节点 的 返回 结果 。 


6.4 PARIM 


的 发 现 模块 。 它 提供 了 单 播发 现 方式 ， 能 够 很 容易 地 扩展 至 云 环境 。 发 现 模块 和 其 他 模块 集成 ， 例 如 所 有 节点 的 通信 征 通 过 传输 模块 。 发 现 模块 分 成 两 个 模块 : 
“ ping 模 块 ， 通 过 ping 模 块 可 以 寻找 其 他 节点 。 


- 单 播 模 块 ， 需 要 提供 一 个 主机 列表 作为 路 由 列表 。 以 discovery.zen.ping.unicast 作 为 前 组 。 


主机 列表 设置 : hosts， 配 置 全 路 径 为 : discovery.zen.ping.unicast.hosts。 它 是 一 个 数组 的 配置 ， 多 个 主机 设置 以 逗号 分 开 。 格 式 为 host:port， 或 者 host[port1-port2]，ip6 的 主机 必须 放 在 方 括号 
例如 127.0.0.1，[:1]。 


a 


单 播发 现 依赖 传输 模块 实现 。 注 意 port 默 认 端 口 是 9300。 


下 面 介 绍 主 节点 选举 过 程 。 


6.5 ”集群 平衡 配置 


一 个 主 节点 的 主要 作用 是 决定 哪些 分 片 分 配给 哪个 节点 ， 并 在 节点 之 间 移 动 分 片 以 平衡 整个 集群 。 有 很 多 设置 可 以 控制 分 片 的 分 配 过 程 : 


“ 分 片 分 配 设置 一 一 可 以 通过 设置 来 对 集群 进行 分 配 和 再 平衡 操作 。 


“ 基于 磁盘 的 配置 可 以 根据 可 用 磁盘 空间 大 小 来 进行 分 配 设置 。 


分 片 智能 分 配 


可 以 控制 分 片 在 不 同 的 机 架 或 可 用 性 区 域 中 的 配置 。 


“ 分 片 配置 过 滤 


允许 菜 些 节点 或 节点 组 排除 在 分 配 的 列表 中 ， 常 用 在 需要 停止 的 节点 中 。 


在 本 节 中 的 所 有 设置 都 是 动态 设置 ， 可 以 通过 集群 接口 进行 实时 更 新 。 


6.6 小 结 


本 章 介绍 了 Elasticsearch 中 的 集群 接口 ， 通 过 接口 可 以 监控 和 配置 集群 。 本 章 同 时 介绍 了 集群 分 配 的 原理 ， 通 过 这 些 原理 可 以 根据 我 们 的 实际 情况 设置 集群 节点 的 性 质 ， 设 置 集群 的 参数 ， 为 长 期 稳定 


运行 Elasticsearch 打 下 基础 。 


本 章 重点 介绍 Elasticsearch 中 的 分 词 器 ， 特 别 是 中 文 分 词 器 。 通 过 本 章 介绍 ， 可 以 了 解 Elasticsearch 分 词 的 原理 、 过 程 ， 以 及 如 何 添加 新 的 分 词 器 等 ， 同 时 本 章 还 介绍 插件 相关 知识 


7.1 分 词 器 的 概念 


在 Elasticsearch 中 ， 索 引 


分 析 模块 是 可 以 通过 注册 分 词 器 (analyzer) 来 进行 配置 。 分 词 器 的 作 


第 7 章 ”索引 分 词 器 


， 及 其 功能 与 安装 


分 词 器 (omalyzer) 是 由 一 个 分 解 器 (tokenizer) 、 零 个 或 多 个 词 元 过 滤器 (token filters) 组 成 。 


分 解 器 处 理 前 可 能 要 做 一 些 预 处 理 ， 比 如 去 掉 里 面 的 HTML 标 记 ， 这 些 处 理 的 
词 元 。 一 个 简单 的 分 解 器 是 把 一 个 句子 当 遇 到 空格 或 标点 符号 时 ， 分 解 成 一 


词 元 过 滤器 的 作 


立 Term 和 原文 档 的 倒 排 索引 (Inverted Index) ， 这 样 就 能 根据 Term 很 快 到 找到 源 文档 了 。 


是 当 一 个 文档 被 索引 的 时 候 ， 分 词 器 从 文档 中 提取 出 若干 词 元 (token) 来 支持 索引 的 存储 和 搜索 。 


法 称 为 字符 过 滤器 (character filter) ， 一 个 分 解 器 会 有 一 个 或 多 个 字符 过 滤器 。 分 解 器 是 用 来 把 字符 串 分 解 成 一 系列 
个 个 的 索引 词 。Elasticsearch 内 置 了 分 词 器 、 分 解 器 和 词 元 过 滤器 ， 同 时 也 支持 自 定 义 这 些 内 容 。 


是 对 分 词 器 提取 出 来 的 词 元 做 进一步 处 理 ， 比 如 转 成 小 写 ， 增 加 同义词 等 。 处 理 后 的 结果 称 为 索引 词 (Term) ， 文 档 中 包含 了 几 个 这 样 的 Term 称 为 Frequency ( 词 频 ) . SHAE 


Elasticsearch 内 置 了 很 多 分 词 器 ， 还 有 很 多 第 三 方 的 分 词 器 插件 ， 比 如 一 些 处 理 中 文 的 分 词 器 (后 面 称 为 “中 文 分 词 器 ”) 。 


索引 分 析 模 块 包 括 分 词 器 (analyzer) ， 分 解 器 (tokenizer) 和 词 元 过 滤器 (token filters) 。 如 果 没 有 明确 定义 分 析 模 块 ， 系 统 会 F 


index : 
analysis : // 一 个 索引 分 析 模 块 
analyzer : // 一 个 分 词 器 
standard : 
type : standard 
stopwords : [stopl, stop2] 
myAnalyzerl : 
type : standard 
stopwords : [stopl, stop2, stop3] 
max token length : 500 
# configure a custom analyzer which is 
# exactly like the default standard analyzer 
myAnalyzer2 : 
tokenizer : standard 
filter : [standard, lowercase, stop] 
tokenizer : // 一 个 分 解 器 


max token length : 
myTokenizer2 : 

type : keyword 

buffer size : 512 

filter : /7 一 个 词 元 过 滤器 

ImyTokenFilterl : 

type : stop 

stopwords : [stopl, stop2, stop3, stop4] 
myTokenFilter2 : 

type : length 

min : 0 

max : 2000 


900 


系统 有 一 个 配置 选项 来 定义 哪个 分 词 器 将 在 默认 情况 下 使 


。 默 认 的 逻辑 名 称 下 有 一 个 的 分 词 器 ， 将 


内 置 的 分 词 器 、 分 解 器 和 过 滤器 。 下 面 是 一 个 分 词 器 的 配置 : 


于 索引 和 搜索 。 配 置 参数 为 default_search。 例 如 : 


index : 
analysis : 
analyzer : 
default : 


tokenizer : keyword 


分 词 器 可 以 通过 别名 来 查找 相关 的 分 词 器 进行 分 词 。 例 如 ， 以 下 将 允许 标准 分 词 器 进行 分 词 的 同时 也 可 参照 别名 为 alias1 和 alias2 的 分 词 器 进行 分 词 。 


index : 
analysis : 
analyzer : 
standard : 
alias: [aliasl, alias2] 
type : standard 
stopwords : [testl, test2, test3] 


系统 默认 的 分 词 器 有 : Standard Analyzer, Simple Analyzer, Whitespace Analyzer, Stop Analyzer, Keyword Analyzer, Pattern Analyzer, Language Analyzers, Snowball 


Analyzer, Custom Analyzer, 


系统 默认 的 分 解 器 有 : Standard Tokenizer, Edge NGram Tokenizer, Keyword Tokenizer, Letter Tokenizer, Lowercase Tokenizer, NGram Tokenizer, Whitespace Tokenizer, Pattern 


Tokenizer, UAX Email URL Tokenizer, Path Hierarchy Tokenizer, Classic Tokenizer, Thai Tokenizer, 


系统 默认 的 词 元 过 滤器 有 : Standard Token Filter, ASCII Folding Token Filter, Length Token Filter, Lowercase Token Filter, Uppercase Token Filter, NGram Token Filter, Edge NGram 


Token Filter, Porter Stem Token Filter, Shingle Token Filter, Stop Token Filter, Word Delimiter Token Filter, Stemmer Token Filter, Stemmer Override Token Filter, Keyword Marker 


Token Filter, Keyword Repeat Token Filter, KStem Token Filter, Snowball Token Filter, Phonetic Token Filter, Synonym Token Filter, Compound Word Token Filter, Reverse Token 


Filter, Elision Token Filter, Truncate Token Filter, Unique Token Filter, Pattern Capture Token Filter, Pattern Replace Token Filter, Trim Token Filter, Limit Token Count Token 


Filter, Hunspell Token Filter, Common Grams Token Filter, Normalization Token Filter, CJK Width Token Filter, CJK Bigram Token Filter, Delimited Payload Token Filter, Keep Words 


Token Filter, Keep Types Token Filter, Classic Token Filter, Apostrophe Token Filter, Decimal Digit Token Filter, 


系统 默认 的 字符 过 滤器 有 : Mapping Char Filter, HTML Strip Char Filter, Pattern Replace Char Filter, 


分 词 模块 的 使 用 还 可 以 通过 单独 的 索引 分 析 接 口 来 体现 。 例 子 如 下 。 


请 求 : POST http://127.0.0.1:9200/_analyzer/ 


"tokenizer": "standard", 
"filters": [ 
"lowercase", 
"stop" 
i, 
"text": "SecIsland is a data company." 


注意 "analyzer"，"tokenizer"，"filters" 三 个 是 关键 字 。analyzer 在 内 容 上 包括 tokenizer 和 filters， 所 以 可 以 只 输入 analyzer， 或 者 输入 tokenizer 和 filters。 
返回 值 为 : 


{ 
"tokens": [ 

{"token": "secisland", "start_offset": 0, "end offset": 9, 
"type": "<ALPHANUM>", "position": 0}, 

{"token": "data", "start_offset": 15, "end_offset": 19, 
"type": "<ALPHANUM>", "position": 3}, 

{"token": "company", "start_offset": 20, "end offset": 27, 
"type": "<ALPHANUM>", "position": 4} 


自 定义 分 词 器 
自 定义 分 词 器 接受 分 解 器 的 逻辑 /注册 名 ， 以 及 词 元 过 滤器 的 逻辑 /注册 名 列表 。 自 定义 分 词 器 的 名 称 不 能 以 “” 开头 。 


自 定义 分 词 器 类 型 可 以 有 如 下 设置 : 


“ tokenizer 一 一 分 解 器 的 逻辑 /注册 名 。 

“filter 一 一 词 元 过 滤器 的 逻辑 /注册 名 的 可 选 列表 。 

` char_filter 一 一 字符 过 滤器 的 逻辑 /注册 名 的 可 选 列表 。 

` position_increment_gap 一 一 每 个 使 用 本 分 词 器 字段 的 字段 值 之 间 可 增加 的 位 置 ， 上 默认 值 为 100。 


举 个 例子 。 


index : 
analysis : 
analyzer : 
myAnalyzer2 : 
type : custom // 自 定义 分 词 器 
tokenizer : myTokenizerl // 分 解 器 别名 ， 具 体 在 下 面 定 义 
filter : [myTokenFilterl, myTokenFilter2] // 词 元 过 滤器 别名 
char filter : [my html] // 字 符 过 滤器 别名 
position_increment_gap: 256 
tokenizer : // 具 体 定义 分 解 器 
myTokenizerl : 
type : standard 
max_token_length : 900 
filter ` // 具 体 定义 词 元 过 滤器 
myTokenFilterl : 
type : stop 
stopwords : [stopl, stop2, stop3, stop4] 
myTokenFilter2 : 
type : length 
min : 0 
max : 2000 
char filter : // 具 体 定义 字符 过 滤器 
my html : 
type : html_strip 
escaped_tags : [xxx, yyy] 
read_ahead : 1024 


7.2 中文 分 词 器 


在 Elasticsearch 中 ， 内 置 了 很 多 分 词 器 (analyzers) ， 但 默认 的 分 词 器 对 中 文 的 支持 都 不 是 太 好 。 所 以 需要 单独 安装 插件 来 支持 ， 比 较 常 用 的 是 中 科 院 ICTCLAs 的 smartcn 和 IKAnanlyzer， 效 果 还 是 
不 错 的 ,但 是 目前 IKAnanlyzer 还 不 支持 最 新 的 Elasticsearch 2.3.0 版 本 ，smartcn 中 文 分 词 器 默认 官方 支持 ， 它 提供 了 一 个 中 文 或 混合 中 文英 文 文本 的 分 析 器 。 支 持 最 新 的 2.3.0 版 本 。 但 是 smartcn 不 支持 
自 定义 词 库 ， 作 为 测试 可 先 用 一 下 。 后 面 介 绍 如 何 支持 最 新 的 版 本 。 下 面 分 别 介绍 两 个 中 文 分 词 器 。 


1.smartcn 
安装 分 词 : plugin install analysis-smartcn 
SIS ` plugin remove analysis-smartcn 
测试 : 


请 求 : POST http://127.0.0.1:9200/_analyze/ 


{ 

"analyzer": "smartcn", 

"text": "联想 是 全 球 最 大 的 笔记 本 厂商 " 
} 


返回 值 : 


3,"end_offset": 
5,"end_offset 
6,"end_offset": 


"kK", "start_offse 
magne = 

"笔记 本 ", "start offset" type 
"厂商 " "start_offset": 11,"end offset": 13,"type" 


word", "position": 6}, 
"word", "position": 7} 


作为 对 比 ， 我 们 看 一 下 标准 分 词 的 结果 ， 在 请 求 中 把 smartcn， 换 成 standard 


然后 看 返回 值 : 


"K", "start_offset": D, "end offset": 
"Æ", "start_offset": 1,"end_offset": 
"2", "start_offset": 2,"end_offset 
"A", "start_offset": 3,"end_offset" 
"aR", "start offse 4,"end_offset 
"he", "start_offse 
"XK", "start_offse 
"a", "start_offse 
"2","start_offse 
"jz", "start_offse 


7, "end offset 
8,"end offset 
9,"end_offset 
10, "end offse 
11, "end offse 
12, "end offset": 


"ën, "start_offse 


从 中 可 以 看 出 ， 结 果 就 是 一 个 汉字 变 成 了 一 个 词 了 ， 基 本 上 不 能 使 用 。 


2.IKAnanlyzer 


目前 GitHub 上 最 新 的 版 本 只 支持 Elasticsearch 2.1.1， 路 径 为 https://github.com/medcl/elasticsearch-analysis-ik。 但 现在 最 新 的 Elasticsearch 已 经 到 2.3.0 了 所 以 要 经 过 处 理 一 下 才能 支持 : 


1) 下 载 源码 ， 下 载 完 后 解压 到 任意 目录 ， 然 后 修改 elasticsearch-analysis-ik-master 目 录 下 的 pom.xml 文 件 。 找 到 <elasticsearch.version> 行 ， 然 后 把 后 面 的 版 本 号 修改 成 2.3.0。 


2) 编译 代码 mvn package。 
3) 编译 完成 后 会 在 target\releases 生 成 elasticsearch-analysis-ik-1.7.0.zip 文 件 。 
4) 解压 文件 到 Elasticsearch/plugins 目 录 下 。 


5) 修改 配置 文件 增加 一 行 : index.analysis.analyzer.ik.type:"ik"。 


启 Elasticsearch。 


测试 : 和 上 面 的 请 求 一 样 ， 只 是 把 分 词 蔡 换 成 ik。 


返回 值 : 


yp 

E 8 7, "type 1 
"ZitA","start_offset": 8,"end offset": 11,"type": "CN WORD", "position": 
"Zit", "start_offset": 8,"end offset": 10,"t : "CN WORD", "position": 

8,"end_offset 9, 
9, "end offset" 
x : 10,"end_offset 
"start_offset": 11,"end_offset": 13,"type": 


|í positio 
CN_WORD", "positio: 
"CN_WORD", "position": 8} 


从 中 可 以 看 出 ， 两 个 分 词 器 分 词 的 结果 还 是 有 区 别 的 。 


IKA nanlyzer 有 一 个 扩展 词 库 ， 在 configNik\custom 下 在 mydict.dic 中 增加 需要 的 词组 ， 然 后 重启 Elasticsearch。 需 要 注意 的 是 文件 编码 是 UTF-8 无 BOM 格 式 编码 。 
比如 增加 了 赛 克 蓝 德 单词 。 然 后 再 次 查询 : 


请 求 : POST http://127.0.0.1:9200/_analyze/ 


"analyzer": "ik" 


"text": " 赛 克 蓝 德 是 一 家 数据 安全 公司 " 


" 赛 克 蓝 德 ", "start_offset": 0,"end_offset": 4,"type": "CN WORD","position": 0}, 
"ën, nstart_offset": 1,"end_offset i 


"$", "start offse 2,"end offset": 
th K " Ê. 


start_offset 
start_offset | position 
公司 ","start _offset 1,"end offset":13,"type CN_WORD", "position":9} 


从 上 面 的 结果 可 以 看 出 已 经 支持 赛 克 蓝 德 单词 了 。 


7.3 Feet 


Elasticsearch 通 过 插件 来 增强 其 个 性 化 功能 需求 。 插 件 可 以 添加 自 定义 映射 类 型 ， 自 定义 分 词 器 、 本 地 脚本 、 自 定义 发 现 等 。 在 Elasticsearch 中 ， 有 三 种 类 型 的 插件 : 


:Java 插件 : 这 些 插件 只 包含 ar 文件， 并 且 必 须 安 装 在 集群 中 的 每 个 节点 上 。 安 装 后 ， 每 个 节点 必须 重新 启动 后 才 生效 。 


: 站 点 插件 : 这 些 插件 包含 了 静态 的 Web 内 容 ， 如 JavaSctipt、HTML 和 CSS 文 件 ， 站 点 插件 只 需要 在 一 个 节点 上 安装 ， 并 且 不 需要 重新 启动 就 可 以 使 用 。 站 点 插件 通过 URL 进 行 访问 ， 例 


如 : http://127.0.0.1:9200/_plugin/ [plugin name]. 


RA: 混合 插件 是 既 包 含 jar 文 件 又 包含 站 点 插件 。 


ZA 小 结 


本 章 介绍 了 Elasticsearch 使 用 分 词 器 从 文档 中 提取 出 若干 词 元 来 支持 索引 的 存储 和 搜索 。 列 举 出 了 内 置 的 分 词 器 和 自 定义 分 词 器 的 方法 。 针 对 中 文 分 词 采取 特殊 的 分 词 方式 ， 并 且 介 绍 了 可 用 的 中 文 分 
词 器 插件 。 


第 8 章 ”高 级 配置 


在 Elasticsearch 的 配置 中 ， 主 要 有 两 种 配置 方式 ， 一 种 是 静态 配置 ， 另 一 种 是 动态 配置 。 静 态 配 置 的 参数 只 能 在 配置 文件 中 事先 写 好 ， 动 态 配 置 的 参数 可 以 通过 _cluster/settings 进 行 设置 。 本 章 主要 
介绍 的 组 件 配置 有 : 


网 络 配置 ， 包 括 本 地 网 关 、HTTP、 网 络 、 传 输 等 配置 。 脚 本 配置 ， 脚 本 模块 的 配置 。 快 照 和 恢复 配置 ， 快 照 备 份 恢复 模块 的 配置 。 线 程 池 配置 ， 线 程 池 模块 的 配置 。 索 引 配置 ， 全 局 索引 相关 设置 模块 
的 配置 。 


8.1 网 络 相关 配置 


Elasticsearch 在 设计 的 时 候 就 考虑 到 了 分 布 式 ， 这 些 分 布 式 的 基础 都 是 来 源 于 网 络 ; 包括 Elasticsearch 的 人 机 交互 接口 HTTP REST APl 也 是 基于 网 络 的 。 本 届 重 点 介绍 Elasticsearch 网 络 相关 的 配置 。 


8.2 ”脚本 配置 


脚本 模块 可 以 使 用 脚本 对 Elasticsearch 的 字段 进行 再 次 处 理 。 例 如 ， 可 以 用 来 重新 评估 查询 的 自 定义 得 分 ， 可 以 对 索引 中 的 某 个 字段 再 次 加 工 处 理 。 


脚本 默认 是 关闭 的 ， 如 果 这 个 时 候 执行 脚本 会 报 以 下 错误 : 


{ 
"error": { 
"root_cause": [ 
{ 
"type": "remote _transport_exception", 
"reason": "[Left-Winger] [127.0.0.1:9300] [indices:data/write/update[s]]" 


"type": "illegal_argument_exception", 
"reason": "failed to execute script", 
"caused by": { 
"type": "script exception", 
"reason": "scripts of type [indexed], operation [update] and lang [groovy] are disabled" 
} 


TI, 
"status": 400 
} 


可 以 通过 配置 来 启用 脚本 引擎 ， 配 置 的 位 置 在 elasticsearch.yml 文 件 中 添加 如 下 内 容 : 


script.inline: true 
script.indexed: true 


对 这 些 设 置 ， 有 三 种 配置 值 : 


+ false 


完全 禁用 脚本 。 


启用 脚本 。 


“ true 


+ sandbox: 


脚本 仅 可 以 用 沙 金 语言 执行 。 


默认 配置 值 为 : 


script.inline: sandbox 
script.indexed: sandbox 


Script.file: true 


也 可 以 在 以 下 操作 中 执行 脚本 : 


“ aggs 一 一 聚合 

` search 搜索 接口 、 过 滤 接 口 或 建议 接口 (例如 filters、script_fields) 。 
` update 升级 接口 。 

` plugin 一 一 通用 plugin 类 别 下 ， 脚 本 使 用 的 任何 插件 。 


插件 也 可 以 进行 自 定义 操作 ， 利 


这 种 格式 : ${pluginName}_${operation}。 例 如 在 任何 脚本 引 警 上 禁用 更 新 和 映射 : 


script.update: false 
script.mapping: false 


也 支持 明确 的 脚本 语言 设置 ， 需 要 script.engine.<engine> 前 缀 ， 优 先 权 高 于 其 他 通 上 


设置 : 


script.engine.groovy.file.aggs: true 
script.engine.groovy.file.mapping: true 
script.engine.groovy.file.search: true 
script.engine.groovy.file.update: true 
script.engine.groovy.file.plugin: true 
script.engine.groovy.indexed.aggs: true 
script.engine.groovy.indexed.mapping: false 
script.engine.groovy.indexed.search: true 
script.engine.groovy.indexed.update: false 
script.engine.groovy.indexed.plugin: false 
script.engine.groovy.inline.aggs: true 
script.engine.groovy.inline.mapping: false 
script.engine.groovy.inline.search: false 
script.engine.groovy.inline.update: false 
script.engine.groovy.inline.plugin: false 


系统 的 脚本 模块 默认 使 


Groovy 作 为 脚本 语言 。 可 以 通过 设置 script.default_lang 进 行 修改 。 


可 以 用 语言 插件 来 支持 不 同 的 语言 脚本 。 所 以 在 使 用 脚本 接 [ 


的 参数 中 提供 了 lang 参 数 定义 脚本 语言 ， 见 表 8-4。 


表 8-4 脚本 语言 插件 


语言 沙 盒 必要 插件 
Mustache 是 KK 
JavaScript elasticsearch-lang-javascript 
Python elasticsearch-lang-python 


为 了 增加 安全 性 ，Elasticsearch 不 允许 在 请 求 中 指定 非 沙 盒 语言 。 


录 中 的 脚本 会 自动 选中 并 且 可 以 被 使 用 。 


默认 的 脚本 目录 位 置 可 以 在 elasticsearch.yml 中 设置 path.scripts 进 行 修改 。 放 置 在 这 个 


旦 脚本 放 在 这 个 目录 中 ， 可 以 通过 脚本 名 进行 引 


8.3 ”快照 和 恢复 配置 


在 Elasticsearch 中 可 以 创建 快照 ， 它 创建 单个 索引 或 整个 集群 到 一 个 远程 的 存储 库 中 。 在 以 前 的 版 本 中 ， 系 统 只 支持 共享 存储 的 快照 创建 ， 最 新 的 版 本 可 以 通过 插件 支持 更 多 的 方式 。 在 执行 快照 操作 


前 ， 需 要 在 Elasticsearch 中 注册 快照 仓库 。 注 册 仓 库 的 设 


需要 执行 仓库 类 型 请 求 ， 例 如 : 


请 求 : PUT http://127.0.0.1:9200/_snapshot/my_backup 


"type": "fs" 


", 
"settings": {http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... repository specific settings http://www.hzcourse.com/ 


} 


当 注 册 后 ， 可 以 通过 查询 来 得 到 之 前 注册 的 信息 。 当 然 系统 也 支持 


逗号 分 开 来 查询 多 个 注册 ， 支 持 通配符 查询 多 个 注册 ， 甚 至 可 以 使 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup 


|_all 查 询 所 有 注册 信息 。 


返回 值 : 
"my backup": { 
"type": "fs", 
"settings": {"compress": "true","location": "/mount/backups/my_backup"} 
$ 
} 
共享 文件 系统 存储 ("type":"fs") 使 用 共享 文件 系统 来 存储 快照 。 为 了 注册 共享 的 文件 系统 存储 库 ， 必 须 将 同一 个 共享 文件 系统 安装 到 所 有 主 节 点 和 数据 节点 的 相同 位 置 上 。 这 个 位 置 (或 它 的 父 目 


录 ) 必须 在 所 有 主 节点 、 数 据 节点 上 设置 path.repo 参 数 。 假 设 共享 文件 系统 安装 在 /mount/backups/my_backup 目 录 下 ， 在 elasticsearch.yml 文 件 中 的 设置 应 增加 : 


path.repo: ["/mount/backups", "/mount/longterm_backups"] 


Gia pathrepo 设 置 支持 微软 Windows UNC 路 径 ， 只 要 服务 器 名 和 共享 名 称 进行 正确 的 设置 ， 例 如 : 


path.repo: ["/mount/backups", "/mount/longterm_backups"] 


只 有 当 所 有 的 节点 都 重新 启动 后 ， 使 用 以 下 的 命令 可 以 为 名 称 为 my_backup 的 共享 文件 系统 库 进行 快照 和 恢复 ， 例 如 : 


请 求 : PUT http://127.0.0.1:9200/_snapshot/my_backup 


"type": "fs", 
"settings": {"location": "/mount/backups/my backup", "compress": true} 
} 


系统 支持 相对 路 径 的 ， 如 果 存 储 位 置 指定 为 相对 路 径 ， 则 不 需要 写 具体 的 全 路 径 ， 例 如 : 


请 求 : PUT http://127.0.0.1:9200/_snapshot/my_backup 


"type": "Es", 
"settings": {"location": "my_backup","compress": true} 
} 


系统 支持 的 参数 如 下 所 示 : 


快照 位 置 ， 必 须要 有 


+ location 


打开 快照 文件 的 压缩 。 压 缩 仅 适 用 于 元 数据 文件 ， 数 据 文件 不 进行 压缩 。 默 认 值 为 true 


` compress 


` chunk size 一 一 如 果 需 要 可 以 把 大 的 文件 分 解 成 不 同 的 快照 。 块 的 大 小 可 以 指定 字 节 例如 1G、10m、5 区 。 黑 认 值 为 null， 表 示 无 限 的 块 大 小 


+ max_testore_bytes_per_sec 


每 个 节点 的 恢复 速度 。 默 认 值 为 40MB 每 秒 


` max_snapshot_bytes_per_sec 每 个 节点 生成 的 快照 速度 。 默 认 值 为 40MB 每 秒 
` teadonly 一 一 使 存储 库 只 读 。 默 认 值 为 false 


1. 只 读 仓库 


URL 仓 库 ("type":"url") 用 于 共享 文件 系统 库 中 创建 只 读 方式 数据 仓库 。 在 url 参 数 中 指定 指向 共享 的 文件 系统 存储 库 的 根 节点 ， 支 持 以 下 设置 : 


` ud 强制 性 的 快照 位 置 。URL 参 数 支持 以 下 协议 : HTTP、HTTPS、FTP、File、jar， 在 http:、https:、ftp: 这 些 协议 中 ， 可 以 支持 白 名 单 ， 白 名 单 的 设置 在 repositories.utl.allowed_urls 参 数 中 ， 例 如 : 


repositories.url.allowed urls: ["http://www.example.org/root/*", "https://*.mydomain.com/*?*#*"] 


存储 库 可 以 通过 插件 支持 更 多 的 方式 ， 比 如 : AWS 云 插件 的 S3 存 储 库 、Hadoop 的 HDFS 揪 件 环 境 、Azure 云 存储 库 插件 。 


当 注 册 了 一 个 存储 库 时 ， 它 立即 在 所 有 主 节点 和 数据 节点 上 验证 ， 以 确保 它 在 集群 中 的 所 有 节点 上 都 可 以 使 用 。 验 证 参数 可 用 于 在 注册 或 更 新 存储 库 时 显 式 禁用 ， 例 如 : 


请 求 : PUT http://127.0.0.1:9200/_snapshot/s3_repository?verify=false 


"type": "s3", 
"settings": {"bucket": "my_s3_bucket", "region": "eu-west-1"} 


} 


验证 过 程 也 可 以 通过 运行 以 下 命令 来 手动 执行 : 


请 求 : POST http://127.0.0.1:9200/_snapshot/s3_repository/_verify 


它 返 回 一 个 节点 列表 ， 成 功 验证 或 发 送 错误 消息 (如 果 验 证 过 程 失败 ) 。 
2. 快 昭 


一 个 存储 库 可 以 包含 同一 个 集群 的 多 个 快照 。 快 照 在 集群 内 的 名 称 是 唯一 的 。 在 一 个 库 中 创建 名 称 为 snapshot 1 快照 可 以 执行 下 面 的 命令 : 


请 求 : PUT http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1?wait_for_completion=true 


wait for completion 参 数 指定 快照 初始 化 后 立即 返回 (默认 ) 还 是 等 待 快 照 完 成 后 返回 。 在 快照 初始 化 时 ， 所 有 以 前 的 快照 信息 加 载 到 内 存 ， 这 意味 着 创建 一 个 大 的 库 快 照 可 能 需要 几 秒 钟 (甚至 几 分 
钟 ) 。 所 以 有 时 候 wait_for completion 参 数 设置 为 false 也 是 需要 等 待 一 会 的 。 


默认 情况 下 ， 会 创建 包含 集群 中 所 有 打开 和 启动 的 索引 的 一 个 快照 ， 此 行为 可 以 通过 指定 快照 请 求 中 的 索引 列表 来 改变 ， 例 如 : 


请 求 : PUT http://127.0.0.1:9200/snapshot/my_backup/snapshot 1 


"indices": "index_1,index_2", 


"ignore unavailable": "true", 
"include global state": false 
} 


可 以 使 用 支持 多 索引 语法 的 索引 参数 来 指定 快照 的 索引 列表 。 快 照 请 求 也 支持 ignore_unavailable 选 项 ， 将 它 设置 为 true 时 可 以 在 快照 创建 过 程 中 把 不 存在 的 索引 忽略 掉 。 上 默认 情况 下 ， 当 


ignore_unavailable 选 项 不 设置 或 者 设置 为 false 的 时 候 ， 如 果 不 存在 索引 ， 索 引 的 快照 请 求 将 失败 。 设 置 include_global_state 为 false 可 以 防止 集群 全 局 状态 被 存储 为 快照 的 一 部 分 。 默 认 情 况 下 ， 如 果 有 


一 个 或 多 个 索引 没有 可 用 的 主 分 片 ， 整 个 快照 会 失败 ， 这 种 行为 可 以 通过 设置 部 分 来 改变 。 


索引 快照 处 理 是 渐进 的 。 在 索引 快照 的 过 程 中 Elasticsearch 会 分 析 索 引文 件 的 列表 是 否 已 存储 在 存储 库 中 ， 同 时 复制 上 次 创建 的 快照 或 更 改 的 文件 。 这 人 允许 在 一 个 紧凑 形式 的 存储 库 中 保存 多 个 快照， 
快照 的 过 程 是 非 阻塞 的 方式 执行 。 当 对 索引 正在 执行 快照 时 ， 所 有 的 索引 和 搜索 操作 可 以 继续 执行 。 然 而 ， 快 照 执行 的 数据 是 在 快照 创建 时 的 时 间 点 确定 的 ， 所 以 在 快照 过 程 开始 后 添加 到 索引 中 的 记录 将 
不 会 在 快照 中 出 现 。 在 1.2.0 版 本 之 前 ， 如 果 集 群 有 迁移 或 者 在 索引 中 初始 化 分 片 时 会 失败 ， 在 1.2.0 之 后 ， 快 照 的 操作 会 等 待 这 些 完成 后 再 操作 。 一 个 快照 除了 创建 集群 的 副本 外 ， 还 可 以 存储 全 局 集群 元 数 


据 ， 其 中 包括 持久 性 集群 设置 和 模板 。 临 时 设置 和 注册 的 快照 库 不 会 存储 为 快照 的 一 部 分 。 


设置 和 调整 算法 ) 。 一 旦 一 个 快照 完成 ， 关 于 这 个 快照 的 信息 ， 可 以 使 用 以 下 命令 来 获得 : 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1 


类 似 的 仓库 ， 对 多 个 快照 信息 可 以 通过 一 次 进行 查询 ， 以 及 支持 通配符 ,或 者 用 _all 查 询 所 有 : 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup/snapshot_*, some_other snapshot 


如 果 一 些 快照 不 可 用 ， 该 命令 将 失败 。 布 尔 参数 jgnore_unvailable 可 用 于 返回 所 有 目前 可 用 的 快照 。 可 以 使 用 以 下 命令 查询 当前 正在 运行 的 快照 : 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup/_current 


快照 可 以 使 用 下 列 命令 从 存储 库 中 删除 : 


请 求 : DELETE http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1 


在 任何 时 间 只 有 一 个 快照 过 程 在 集群 中 被 执行 。 而 对 快照 创建 分 片 时 ， 这 分 片 不 能 移动 到 另 一 个 节点 ， 它 可 能 干扰 平衡 过 程 和 过 滤 操 作 。 一 次 快照 操作 只 能 移动 一 块 到 另 一 个 节点 (根据 当前 配置 过 滤 


当 快 照 从 库 中 删除 时 ，Elasticsearch 将 删除 与 快照 关联 的 和 其 他 快照 也 不 使 用 的 所 有 文件 ， 如 果 执 行 快照 创建 的 过 程 中 同时 删除 快照 ， 则 快照 创建 的 过 程 会 停止 ， 同 时 删除 相关 的 文件 。 因 此 ， 删 除 快 


照 操 作 可 以 用 来 取消 被 错误 启动 的 长 时 间 运 行 的 快照 操作 。 使 用 下 面 的 命令 可 以 删除 存储 库 : 


请 求 : DELETE http://127.0.0.1:9200/_snapshot/my_backup 


当 一 个 库 被 删除 ，Elasticsearch 仅 删除 存储 库 的 位 置 的 引用 ， 快 照 本 身 并 没有 被 删除 。 


3. 恢 复 


使 用 以 下 命令 可 恢复 快照 : 


请 求 : POST http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1/_restore 


默认 情况 下 ， 快 照 中 的 所 有 索引 以 及 集群 状态 将 被 恢复 ， 在 恢复 include_global_state 选 项 时 ， 可 以 指定 具体 的 索引 和 集群 状态 被 恢复 。 索 引 的 列表 支持 多 索引 语法 。 


rename_pattern 和 rename _replacement 选 项 也 可 用 于 重 命名 索引 ， 可 以 使 用 正则 表达 式 ， 该 表达 式 支 持 引用 原始 文本 。 设 置 include_aliases 为 false 可 以 防止 相关 索引 的 别名 被 一 起 恢复 ， 例 如 : 


请 求 : POST http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1/_restore 


"indices": "index 1,index 2", 

"ignore unavailable": "true", 

"include global state": false, 

"rename pattern": “index (.+)", 

"rename replacement": "restored_index_$1" 


恢复 操作 可 以 在 一 个 功能 集群 上 执行 。 在 快照 索引 中 有 相同 数量 分 片 的 索引 如 果 是 关闭 的 ， 则 只 能 恢复 。 如 果 索 引 是 关闭 的 则 恢复 操作 会 自动 打开 索引 ， 如 果 索 引 在 集群 中 不 存在 ， 恢 复 操作 将 会 创建 


新 的 索引 ， 如 果 恢 复 集群 状态 ， 则 在 该 集群 中 不 存在 的 模板 将 被 添加 ， 已 恢复 的 模板 会 替换 为 具有 相同 名 称 的 现 有 模板 。 恢 复 中 的 设置 被 添加 到 现 有 的 设置 中 。 


部 分 恢复 ， 默 认 情 况 下 ， 如 果 一 个 或 更 多 的 索引 如 果 没 有 可 用 的 快照 碎片 ， 整 个 恢复 操作 将 失败 。 如 果 一 些 碎片 没有 快照 ， 通 过 设置 partial 为 true， 仍 可 以 恢复 部 分 索引 。 请 注意 ， 在 这 种 情况 下 只 有 


有 分 片 的 索引 会 被 正确 恢复 ， 没 有 分 片 的 索引 会 建立 空 的 索引 。 


在 恢复 过 程 中 改变 索引 设置 ， 在 恢复 过 程 中 大 多 数 索引 的 设置 可 以 被 覆盖 。 例 如 ， 下 面 的 命令 将 不 创建 任何 副本 而 切换 回 默认 刷新 闻 隔 的 恢复 索引 index_1: 


请 求 : POST http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1/_restore 


参数 

{ 
"indices": "index_1", 
"index settings": {"index.number_of replicas": 0}, 
"ignore_index_settings": ["index.refresh_interval"] 


} 


请 注意 ， 一 些 设置 ， 如 index.number_of_shards 在 恢复 操作 期 间 是 无 法 更 改 的 。 


恢复 到 不 同 的 集群 ， 快 照 中 存储 的 信息 不 依赖 于 特定 的 集群 或 集群 名 称 。 因 此 ， 它 有 可 能 恢复 从 一 个 集群 到 另 一 个 集群 的 快照 。 公 要求 注 册 存 储 库 中 包含 快照 ， 并 启动 恢复 过 程 ， 新 的 集群 不 具有 相同 


的 大 小 或 拓扑 结构 。 如 果 一 个 集群 有 的 空间 比较 小 ， 需 要 考虑 的 事情 有 : 首先 ， 要 确保 新 的 集群 有 足够 的 容量 来 存储 快照 中 的 所 有 索引 。 在 还 原 的 过 程 中 ， 可 以 改变 索引 设置 ， 以 减少 复制 的 次 数 ， 
帮助 将 快照 恢复 到 较 小 的 集群 ， 也 可 以 选择 使 用 索引 参数 。 在 版 本 1.5.0 之 前 ，Elasticsearch 没 有 检查 恢复 持续 的 设置 使 得 有 可 能 恢复 出 错 ， 参 数 discovery.zen.minimum_master_nodes 禁 用 一 个 / 


这 可 以 
\ 集 群 直 


到 添加 所 需 的 主 节点 数 。 从 版 本 1.5.0 此 设置 将 被 忽略 。 如 果 在 原始 集群 的 索引 被 分 配 到 特定 的 节点 ， 使 用 过 滤 分 片 配置 ， 同 样 的 规则 将 在 新 的 集群 执行 。 因 此 ， 如 果 新 的 集群 不 包含 具有 已 有 属性 的 节点 ， 


则 该 恢复 的 索引 可 以 被 分 配 ， 除 非 这 些 索引 分 配 设置 在 恢复 操作 期 间 改 变 ， 否 则 不 会 恢复 成 功 。 


4. 快 照 状态 


使 


以 下 命令 可 获得 当前 运行 快照 的 详细 状态 信息 列表 : 


请 求 : GET http://127.0.0.1:9200/_snapshot/_status 


下 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup/_status 


如 果 指 定 了 存储 库 名 称 和 快照 标识 ， 该 命令 将 返回 指定 快照 的 详细 状态 信息 : 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1/_status 


同样 支持 多 个 id 的 查询 ， 例 如 : 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1, snapshot_2/ status 


监控 快照 恢复 过 程 : 当 快 照 的 进度 和 恢复 正在 运行 ， 有 几 种 方法 来 监视 它们 。wait_ for completion 参 数 会 阻止 客户 端 直 到 操作 完成 。 这 是 最 简单 的 方法 ， 可 以 有 


还 可 以 定期 对 快照 信息 进行 监视 ,例如 : 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup/snapshot 1 


请 注意 ， 快 照 信息 的 


操作 使 


状态 的 完整 信息 ， 可 以 使 


快照 状态 命令 来 查询 ， 例 如 : 


请 求 : GET http://127.0.0.1:9200/_snapshot/my_backup/snapshot_1/_status 


面 的 命令 将 返回 有 关 当 前 正在 运行 的 快照 的 信息 。 通 过 指定 一 个 存储 库 的 名 称 ， 可 以 将 结果 限制 为 特定 的 存储 库 : 


相同 的 资源 和 线程 池 作为 快照 操作 。 所 以 ， 当 大 的 分 片 进行 快 照会 导致 快照 操作 ， 在 返回 结果 之 前 等 待 可 


快照 信息 方法 在 处 理 过 程 中 返回 快照 的 基本 信息 ， 快 照 状 态 返 回 在 快照 中 每 个 分 片 的 当前 状态 。 


在 恢复 操作 时 ，Elasticsearch 的 集群 通常 会 进入 红色 状态 。 这 是 


转换 为 标准 的 复制 过 程 ， 凶 


资源 ， 所 以 这 种 情况 


因为 还 原 操作 开始 恢复 索引 的 


以 获得 更 详细 的 恢复 过 程 中 的 状态 。 


停止 当前 正在 运行 的 快照 和 恢复 操作 : 快照 和 恢复 操作 允许 一 次 只 运行 一 个 快照 或 一 次 恢复 。 如 果 一 个 当前 运行 的 快照 被 错误 地 执行 ， 或 者 需要 很 长 的 时 间 ， 可 以 使 


除 时 会 进行 检查 ， 如 果 删 除 快照 正在 运行 ， 则 停止 此 次 删除 。 


还 原 操作 使 


快照 和 恢复 


标准 的 分 片 恢 复 机 制 。 


操作 都 受 集群 和 索引 块 的 影响 。 例 如 ， 注 册 和 注销 库 需 要 通过 编写 
的 ， 但 是 索引 水 平 块 将 被 忽略 ， 


因为 在 恢复 的 过 程 中 索引 是 如 


SGA. "Ste, PAE 


8.4 线程 池 配 置 
节点 包含 多 个 线程 池 


有 多 种 线程 池 ， 最 


来 改善 节点 的 线程 内 存 消耗 。 这 些 线程 池 有 许多 与 之 关联 的 队列 ， 


要 的 见 表 8-7。 


内 容 不 是 集群 的 一 部 分 ， 


建 所 需 数量 的 副本 ， 这 时 集群 切换 到 黄色 状态 。 一 旦 所 有 所 需 的 复制 品 被 创建 ， 集 群 切换 到 


因此 ， 可 以 通过 删除 索引 来 取消 恢复 的 操作 。 请 注意 ， 在 这 种 情况 下 所 有 已 删除 索引 的 数据 将 被 从 集群 中 移 | 


PSA. TX MRR, J 


分 片 变 得 不 可 
绿色 状态 。 集 群 健康 操作 仅 为 恢复 过 程 的 高 


会 占用 很 多 时 间 。 


来 获得 有 关 操 作 完 成 的 通知 。 


为 了 获得 更 直接 的 快照 


， 这 体现 在 红色 状态 。 一 旦 碎片 恢复 完成 时 ，Elasticsearch 


层次 状态 。 通 过 使 


快照 删除 


索引 恢复 和 精简 API 可 


操作 来 终止 它 。 快 照 删 


局 元 数据 来 进行 访问 。 快 照 操作 需 


所 有 的 索引 和 元 数据 以 及 全 


因此 集群 


表 8-7 主要 线程 池 


局 元 数据 都 是 可 读 的 。 恢 复 操作 需 
块 不 影响 内 部 存储 库 操作 ， 例 如 已 注册 的 存储 库 中 的 列表 或 删除 快照 。 


于 保留 等 待 的 请 求 而 不 是 丢弃 。 


全 局 元 数据 是 可 写 


队列 大 小 是 1000 
队列 大 小 是 1000 
队列 大 小 是 50 

队列 大 小 是 1000 


200 


int((# of available processors * 3)/ 2)+1, 


5m， 大 小 是 min(5, (# of available 


L Sm， 大 小 是 min(5, (# of available 


min(10, (# of available processors)/2) 


名 称 说 明 
generic 用 于 通用 操作 〈 例 如， 背景 节点 发 现 )。 线 程 池 类 型 是 cached 
index 用 于 索引 / 删除 操作 。 线 程 池 类 型 是 fxed， 大 小 是 # of available processors， 队 列 大 小 是 
search 用 于 统计 /搜索 操作 。 线 程 池 类 型 是 fxed， 大 小 是 
队列 大 小 是 1000 
suggest 用 于 建议 操作 。 线 程 池 类 型 是 fxed， 大 小 是 # of available processors, 
get 用 于 获取 操作 。 线 程 池 类 型 是 fxed， 大 小 是 # of available processors, 
bulk 用 于 大 量 操作 。 线 程 池 类 型 是 fxed， 大 小 是 # of available processors, 
percolate 用 于 渗 出 操作 。 线 程 池 类 型 是 fixed， 大 小 是 # of available processors, 
snapshot 用 于 快照 /恢复 操作 。 线 程 池 类 型 是 scaling 保 持 时 间 是 
processors)/2) 
warmer 用 于 索引 预 加 载 操 作 。 线 程 池 类 型 是 scaling 保持 时 间 是 
processors)/2) 
refresh 用 于 刷新 操作 。 线 程 池 类 型 是 scaling 保持 时 间 是 5m， 大 小 是 
listener 主要 用 于 Java 客户 端 执行 时 ， 监 听 线 程 设 置 为 true 


(# of available processors)/2) 


更 改 特定 的 线程 池 可 以 通过 设置 指定 类 型 参数 。 例 如 ， 修 改 index 线 程 池 拥 有 更 多 的 线程 如 下 所 示 : 


线程 池 类 型 是 scaling 默认 大 小 是 min(10, 


threadpool: 
index: 
size: 30 


Oza 可 以 使 用 集群 更 新 设置 来 动态 升级 线程 池 设置 。 


1 .线程 池 类 型 


下 面 是 线程 池 类 型 和 它们 各 自 的 参数 : 


:cached。cached 线 程 池 是 一 个 无 限 的 线程 池 ， 如 果 存 在 挂 起 的 请 求 时 ， 就 会 产生 一 个 线程 。 这 个 线程 池 用 来 防止 提交 的 请 求 被 阻塞 或 丢弃 。 线 程 池 中 的 无 用 线程 会 


销毁 。cached 线 程 池 被 保留 为 通用 线程 池 。Kkeep_alive 参 数 决定 一 个 线程 的 空闲 时 间 : 


会 在 持续 期 满 〈 默 认为 5 分 钟 ) 之 后 被 


threadpool: 
generic: 


keep_alive: 2m 


“ fixed。fixed 线 程 池 拥 有 固定 大 小 的 线程 来 操作 队列 中 的 请 求 〈 任 意 界 限 ) 直到 请 求 没有 线程 提供 服务 。size 参 数控 制 线程 的 数量 。queue_size 参 数 可 以 控制 没有 线程 执行 的 请 求 队列 的 大 小 。 


为 -1， 意 味 着 无 限 


大 。 当 请 求 到 达 而 且 队 列 已 经 满 了 ， 请 求 会 被 中 止 ， 如 下 所 示 : 


默认 设置 


threadpool: 
index: 
size: 30 


queue_size: 1000 


` scaling。scaling 线 程 池 拥 有 动态 数量 的 线程 。 


线程 的 数量 与 工作 量 成 正比 ， 并 且 在 1 和 size 参 数值 之 间 变 化 。keep_alive 参 数 决定 一 个 线程 的 空闲 时 间 : 


threadpool: 
warmer: 
size: 8 


keep_alive: 2m 


2. 处 理 器 设置 


处 理 器 的 数量 是 自动 检测 的 ， 线 程 池 的 设置 会 基于 结果 自动 设置 。 有 时 ， 处 理 器 的 数量 会 被 错误 检测 ， 在 这 种 情况 下 ， 处 理 器 的 数量 可 以 使 


为 了 检查 处 理 器 检测 的 数量 ， 可 以 使 用 节点 信息 ， 节 点 利用 os 标示 。 


8.5 ”索引 配置 


索引 模块 是 控制 每 个 索引 指标 的 模块 。 索 引 模 块 包括 分 词 、 分 片 控制 和 分 配 、 字 段 映射 、 索 引 相 似 性 配置 、 慢 查询 记录 、 文 件 系 统 配置 、 控 制 | 


相似 性 定义 了 


0 何 对 文件 进行 评分 机 制 ， 相 似 性 对 应 的 维度 是 列 ， 这 意味 着 可 以 对 每 一 列 进行 不 同 相似 性 的 配 


先 在 系统 中 配置 好 的 。 如 果 是 DFR 和 1B 模 型 ， 我 们 需要 配置 才能 使 用 。 


索引 分 片 配置 3 


processors 进 行 明确 设置 。 


有 务 和 刷新 模块 。 


。 Elasticsearch 人 允许 


不 作 任何 配置 使 


EEA: 分 片 配置 过 滤 (Shard allocation filtering) 、 延 迟 分 配 (Delayed allocation) 和 分 片 总 数 配置 (Total shards per node) 。 


default 和 BM25 相 似 度 模 型 ， 


因为 它们 是 预 


8.6 小 结 


快照 可 以 进行 集群 的 整体 恢复 或 部 分 恢复 。 


本 章 介绍 了 Elasticsearch 的 高 级 设置 功能 ， 利 用 这 些 配 置 可 以 管理 集群 与 扩展 ， 并 且 在 Elasticsearch 中 可 以 创建 快照 ， 利 


SOS 告警、 监控 和 权限 管理 


这 些 插件 可 以 对 Elasticsearch 进 行 告警 监控 、 认 证 权限 管理 ， 不 过 这 几 个 插件 都 是 收费 的 。 


本 章 介绍 Elasticsearch 官 方 支持 的 几 个 比较 好 的 插件 : Watcher、Marvel、Shield， 用 


Watcher 是 进行 告警 和 通知 的 插件 ， 可 以 根据 数据 的 变化 采取 行动 。 它 的 设计 原理 是 在 Elasticsearch 中 执行 查询 ， 满 足 条 件 的 情况 下 ， 产 生 告警 。 简 单 地 定义 查询 、 设 置 限定 条 件 、 设 置 预定 计划 和 将 
要 进行 的 操作 后 ，Watcher 会 自动 完成 剩 下 的 操作 。 


9.2 ”监控 


， 便 于 性 能 优化 以 及 故障 诊断 。 监 控 主 要 分 为 六 个 层面 ， 分 别 是 集群 层 、 节 点 层 、 索 引 层 、 分 片 层 、 事 件 层 、Sense。 


Marve| 是 商业 监控 方案 ， 用 来 监控 Elasticsearch 集 群 历史 状态 的 有 力 工 


9.3 ”权限 管理 


Shield 是 商业 权限 管理 插件 ， 它 可 以 保护 Elasticsearch 中 的 数据 ， 采 用 加 密 的 通信 密码 ， 基 于 角色 的 访问 控制 ，IP 过 滤 和 审计 等 。 
Shield 是 以 Elasticsearch 插 件 的 形式 存在 的 。 安 装 过 程 如 下 : 


1) 在 Elasticsearch 中 安装 Shield 插 件 : 


bin/plugin install license 
bin/plugin install shield 


2) 启动 Elasticsearch : 


bin/elasticsearch 


3) 添加 管理 员 账号 : 


bin/shield/esusers useradd es_admin -r admin 


4) 测试 是 否 生 效 。 在 页 面 访问 数据 的 时 候 ， 会 显示 如 图 9-5 所 示 的 界面 。 


所 œŒ D localhost:9200 


需要 进行 身份 验证 


http://localhost:9200 和 要求 提供 用 户 名 和 密码 。 


图 9-5 Shield 登录 页 面 


当 输 入 正确 的 账户 和 密码 的 时 候 ， 才 可 以 访问 数据 。 


9.4 小结 


本 章 介绍 了 和 Elasticsearch 相 关 的 告警 、 监 挖 和 权限 管理 ， 这 几 个 功能 主要 解决 了 默认 Elasticsearch 中 没有 的 或 者 不 方便 的 地 方 ， 这 几 个 地 方 都 是 在 管理 、 运 维 中 非常 重要 的 ， 不 过 遗憾 的 是 这 几 个 插 
件 都 是 收费 的 ， 在 经 济 允 许 的 情况 下 可 以 购买 ， 也 算是 对 开源 软件 的 一 种 赞助 行为 。 


第 10 章 ”ELK 应 用 


通过 前 面 的 介绍 ， 知 道 了 Elasticsearch 有 很 多 强大 的 功能 ,但 这 些 功 能 能 用 在 什么 地 方 呢 ， 本 章 主要 介绍 与 Elasticsearch 相 关 的 两 个 应 用 。 当 然 市 场 上 已 经 有 越 来 越 多 的 企业 开始 使 用 Elasticsearch,， 
对 Elasticsearch 的 发 展 非常 有 帮助 。 


Logstash: 是 一 个 灵活 的 开放 源码 的 数据 收集 、 处 理 、 传 输 的 工具 。Logstash 可 以 处 理 日 志 、 事 件 、 非 结构 化 的 数据 ， 并 把 它们 输出 出 来 ， 包 括 可 以 输出 到 Elasticsearch 中 。 


Kibana: 是 一 个 开源 的 数据 可 视 化 平台 ， 可 以 把 数据 以 强大 的 图 形 化 方式 展示 出 来 。 从 柱状 图 到 地 图 等 ， 它 可 以 通过 多 个 图 表 的 组 合 来 生成 更 为 强大 的 仪表 面板 ， 帮 助人 们 理解 、 分 析 和 分 享 数据 。 


在 业界 一 般 把 Elasticsearch+Logstash+Kibana (ELK) 的 组 合 专门 用 来 处 理 日 志 ， 存 储 日 志 ， 展 示 日 志 。 


10.1 Logstash 


注意 : 关于 安装 文档 ， 网 络 上 有 很 多 可 以 参考 ， 而 且 三 件 套 各 自 的 版 本 很 多 ， 差 别 也 不 一 样 ， 需 要 版 本 匹配 上 才能 使 用 ， 推 荐 直接 使 用 官网 的 最 新 版 。 本 示例 的 版 本 是 Elasticsearch-2.3.2、Logstash- 
2.3.2、Kibana-4.5.0 版 本 。 


下 面 以 一 个 示例 介绍 ELK 的 使 用 ， 这 个 示例 是 收集 Nginx 的 日 志 。 


Logstash、Elasticsearch、Kibana 三 个 产品 的 安装 都 可 以 是 绿色 的 ， 只 要 安装 好 Java 后 就 可 以 直接 使 用 。 


10.2 Kibana 配 置 


Kibana 安 装 也 是 比较 简单 的 ， 也 是 绿色 的 ， 解 压 后 直接 运行 即 可 。 默 认 端 口 为 5601。 启 动 后 在 浏览 器 输入 : http://127.0.0.1:5601/。 


10-2 所 示 。 可 以 用 通配符 ， 选 择 时 间 字 段 (Time-field name) ， 点 击 Create 进 入 下 一 步 的 配置 。 


[ 


第 一 次 需要 进行 配置 ， 在 Index name or pattern 里 面 填写 需要 搜索 的 索引 ， 如 | 


进入 下 一 步 后 ， 可 以 手动 调整 映射 ， 可 以 设置 Kibana 的 默认 索引 ， 还 可 以 在 左边 的 Add New 栏 中 添加 配置 其 他 索引 ， 如 图 10-3 所 示 。 


完成 上 面 的 配置 后 ， 选 择 最 上 面 的 Discover 就 会 显示 查询 日 志 主 界面 ， 如 图 10-4 所 示 。 


i ana Discover Visualize Dashboard Settings ii 


Indices Advanced Objects Status About 


Index Patterns 


Ki Configure an index pattern 


In order to use Kibana you must configure at least one index pattern. Index pattems are used to identify the Elasticsearch index tq 


w Index contains time-based events 


Use event times to create index names [DEPRECATED] 


Index name or pattern 


Patterns allow you to define dynamic index names using * as a wildcard. Example: logstash-* 


seci-” 


Do not expand index pattern when searching (Notrecommended) 
By default, searches against any time-based index pattern that contains a wildcard will automatically be expanded to query onl 
h 


Searching against the index pattern /ogstash-* will actually query elasticsearch for the specific matching indices (e.g. /oc 


Time-field name @ refresh fields 


eventDate 


图 10-2 ”Kibana 配 置 : 填写 索引 


Visualize jashboard Settings D 


Kibana Marvel 


Indices Advanced Objecs Status Aboul 
Index Pattems KAZTLËI 

食 seci-* D EN 
marvel-es-1-* secl- 


This page lists every field in the seci- index an core type as recorded by Elasticsearch. While this list allows you to view the core typo of each field. changing field types must ba done using 
Elasticsearch’s Mapping AP! % 


Fields (47 Scripted flelds (0) 


name format analyzed @ indexed @ controls 


_source 
hostip string EI 
sourcePort number 四 
eolleetlp sting el 
time string 四 

+ 


collectHostname string 


10-3 ”Kibana 配 置 界面 : 调整 映射 


S 
kibana [Sea ea Sore 


10,001 hits 


Selected Fields Sepiember 29th 2016, 15:33:25 102 - October 6th 2016, 15:33:26 102 — by 3 hours 


Available Fields 
_id 
-index 
_score 
type 
category 
collectDate 


Time 
collectEndDate 


Kee eege SRNA; 162309520 cbd6550a010ac7dbb softwareRane: windows collectIp: 192.168.21.1 csllecthane: collectseci-zhulin 


collectip colleetType: syslog colleotDate: September 30th 2016, 16:50:55.000 ecellectEndDate: September 20th 2015, 16:50:55,000 colleetMextname:> seci 


-zhulin eventType: common window eventiatailType: 5447 categary: PolicyChange snhrategnry- OtherPolicyChangeEvents eventWase: common wind 
collectName 

erentBese: [seci-win-2008 Keywords="-9214364837600034616" EventType="AUD: 5" Event ID="5. " Provider Gui d="{54849625 -5473-4994-A 
collectType 


content 

aate September 30th 2016, 16:50:55.000 id; 492,168, 21. 1-082487a0d513440795547dbb77537656 softwareNane: windows colleetIp: 192.168.21.1 esllectHane: collectseci-zhulin 

dnin celleetType- syslog cullectDate: September 30th 2016, 16:50:55.000 esllectEndDate: Septenber 30th 2015, 16:50:55,000 collectlestnane: seci 
Se -zhulin eventType: common window eventDetailTyps: 5447 category: PolicyChange snbCategnry- OtherpolicyChangeEvents erantWane: common wind 


‘Dat Ow erentBese. [Seci-win-2008 Keywords="-9214364837500034816" EventType="AUDIT_SUCCESS” EventID="5 * Provider Gui d="{54849625 -5478-4994-A 
eventDate 


eventDesc 

eventDetailType ptember 30th 2016, 16:50: > id 192.168, 21, 1-c5b7b6a2C218488d81360C873345e40e softwareNane- windows colleetIp 192.168.21.1 eelleetgane- collectseci-zhulin 
eventName collectlype: syslog collectDate: September 30th 2016, 15:50:55.000 cellectEndDate: September 30th 2015, 16:50:55.000 collectMestmme: seci 
eventType -zhulin eventľypo: common window eventietailType: 5447 category: PolicyChange subCategory: OtherpolicyChangeEvents erentWame: common wind 


hostip Ow erenthese: [seci-win-2008 Keywords="-9214364837500034816" EventType="AUDIT_SXCESS” EventID="5447" ProviderGuid="{54849625-5478-4994-A 


图 10-4 ”Kibana 查 询 日 志 图 


10.3 ”综合 示例 


我 们 根据 之 前 的 介绍 编写 一 个 完整 的 例子 来 展示 ELK 的 强大 。 日 志 源 为 我 们 比较 常见 的 Nginx 日 志 。 具 体 步骤 如 下 : 


1) 日 志 位 置 : 我 们 把 日 志 存 放 在 D:/work/es_book/logstash-2.3.2/log/nxlog_access.log.txt 中 ， 我 们 取 一 条 上 典型 的 nxlog 日 志 示 例如 下 : 


117.89.20.205 - - [03/Nov/2015:09:20:10 +0800] "POST /api/switch/list HTTP/1.1" 200 304 
"http: //secilog.secisland.com/api/" "Mozilla/5.0 (Windows NT 6.3; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36" 


2) 编写 配置 文件 ， 文 件 名 为 logstash_nxlog.conf， 保 存在 logstash 的 bin 目 录 下 : 


input { 
file { 
path => "D:/work/es_book/logstash-2.3.2/log/nxlog_access.log.txt" 
start_position => beginning a 
} 
} 
filter { 
grok {match => { "message" => "%{COMBINEDAPACHELOG}"}} 


} 
output {elasticsearch { hosts => ["127.0.0.1:9200"] }} 


3) 启动 Elasticsearch。 
4) 运行 logstash-f logstash_nxlog.conf。 


5) 正常 情况 下 ， 日 志 会 写 入 到 Elasticsearch 中 ， 索 引 的 名 称 为 logstash- 开 头 。 


6) 配置 Kibana， 参 见 10.2 节 ， 然 后 就 可 以 看 到 Nginx 日 志 不 停 地 被 写 入 到 Elasticsearch 中 ， 然 后 通过 Kibana 展 示 出 来 ， 参 见 图 10-19。 


7) 然后 我 们 根据 数据 建 三 个 图 表 ， 一 个 是 趋势 图 ， 一 个 是 响应 状态 码 分 布 ， 一 个 是 源 IP 分 布 ， 参 见 图 10-20、 图 10-21、 


10-22, 


[ 


logstash.* 73 hits 


Selected Fields Octobor 6th 2016, 17:23:20.678 - October 6th 2016, 18:23:20.678 — by minuto 


Available Fields 


@imestamp 
@vorsion É H d Ip 
a H 


1 
index 
(@tmestamp per minute 

_score K 
-bpe 

Time „source 
agent 
auh » October 6th 2016, 18:19: message: 115.28.44.151 - - [28/Mar/2014:00:26:10 +0800] "GET /wanager/htrl HTTP/1.1” 301 162 "-" "Mozilla/3.0 (compatible; Indy Library)” @versien: 
Se imectap: October 6th 2016, 18:19:47.869 path: D:/worky/es_book/1ogstash-2.3.2/1os/nxlog_access.1og host: seci-zhulin clientip: 115.28.44.151 


, ident: - auth: - tinestanp: 28/Mar/2014:00:26:10 +0800 verb: GET request: /manager/htm] httpversien: 1.1 response: 301 bytes: 162 referrer 
henn 

oz11]a/3.0 (compatible; Indy Library)” geoip.ip: 115.28.44.151 Eeeip_comtry code2: CN geeip. country cede3: CHN geoip. country nane: China 
geoip area_code a : LHP ` 


` EE AE : ` > set baiiio Tikk” 39.929 ongf tele 115.398 = D 


Qeoip.city_name 

geoip conlinent_code » October etk AAG, 18 7.869 message: 115.28.44.151 - - [28/Mar/2014:00:26:10 +0800) "GET /manager/htw] HTTP/1.1" 301 162 "-" "Mozilla/3.0 (compatible; Indy Library)" @versien: 
geoip.couniry_code2 Qtimestanp: October 6th 2016, 18:19:47,369 path: D:/work/es_book/Togstash 2/log/nxlog_access.1og host: seci-zhulin clientip: 115.28.44.151 
geoip.county_code3 ident: - auth - timestamp. 26/Mar/2014:00:26:10 +0800 verb GET reqest manager/htel hetpversien: 1.1 response: 301 bytes 162 referrer 
EE ozi11a/3-D (compatible; Indy Library)” Epoi ipi 115.28.44.151 geoip cowntry coda?: CN Zooi comtry ceda3 CHN geoip country nane 


eiiino mois Tatitnd Se Ee 


geoip.dma_coda 
geoip ip » October Sth 2016, 18:19:47. massage: 115.28.44.151 - - [2 2014:00:26 :10 GET /wanager/htm] HITP/1.1" 301 162 “-* "Mozilla/3.0 (compatible; Indy Library)” Gvexsiem 
geoip latitude @timestanp: October 6th 2016, 18 47.869 path: D:/work/es_book/logstash- log/nxlog_access. log host: seci-zhulin cliemtip: 115.28.44.151 


geoip Jocation ident: - auth: - timestamp: 28/Mar/2014:00:26:10 +0800 verb: GET request: /manager/htm] httpversien: 1.1 response: 301 bytes: 162 referrer 


图 10-19 ”Kibana 加 载 仪表 盘 


ki bana Discover Visualize Dashboard Settings 


logstash-* 


> @ Count 
Data Options 


metrics 


日 Y-Axis 


+ Add metrics 


buckets 


© x-axis 


Aggregation 


Date Histogram 


Field 


@timestamp 


Count 
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Minute 


CustomLabel 


«Advanced 
P Add sub-buckets 


10-20 ”事件 趋势 


logstash— 


© Last 1 hour 


ul 响应 状态 码 分 布 
> @ Count 


Data Options 


+ Add metrics 

e x-axis 
Aggregation 

Terms 
Field 

response.raw 
Order By 

metric: Count 
Order i 

Descending 20 
CustomLabel 

4Advanced 
P Add sub-buckets es 
400 200 301 302 404 


response.raw: Descending 


“A 


10-21 响应 状态 码 分 布 


ki ba na Discover Visualize Dashboard Settings ii © Last 1 hour 


区 2 


LEE 
> 042.120.142.223 
@ 42.120.142.221 
@ 115.28.44.151 
@ 115.238.88.202 
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Ba spit stices 
Aggregation 


Terms 
Field 
clientip.raw 


Order By 


metric: Count 


Order 


Descending 


CustomLabel 


«Advanced 
P Add sub-buckets 


图 10-22” 源 IP 分 布 


8) 最 后 ， 我 们 建立 一 个 仪表 盘 ， 把 三 个 图 表 放 到 仪表 盘 中 ， 然 后 把 主题 设置 成 深 色 ， 这 样 看 起 来 比较 专业 ， 如 图 10-23 所 示 。 


l == 
nginx |- | 。 。 


W ana 


14 


1755 1800 
@timestamp per minute 


“a 


ex 办 Pan Lé 


国 ES © 42.120.142.223 
@ 42.120 142221 

11528.44.151 

® 115273888202 

§ 1178920205 


3m 
response.raw. Descending 


A 


图 10-23 RAM RAL 


本 章 主要 介绍 了 基于 Elasticsearch 开 发 的 相关 产品 : ELK， 它 是 在 日 志 分 析 领 域内 目前 非常 火 的 一 个 组 合 ， 如 需 了 解 更 多 产品 使 用 ， 请 查阅 相关 资料 。 


附录 Elasticsearch 5.0 的 特性 与 改进 


2016 年 10 月 27 日 Elastic 公 司 发 布 了 全 新 的 ElasticStack 5.0.0 版 本 ，Elastic 公 司 有 一 套 解决 方案 ， 包 括 Elasticsearch、Kibana、Beats、Logstash 几 个 主要 的 程序 。 为 了 和 其 他 产品 版 本 号 保持 一 
致 ，Elasticsearch 的 版 本 也 从 2.4 版 本 直接 跳 到 5.0 版 本 。 


Elasticsearch 5.0 版 本 增加 了 很 多 新 特性 ， 包 括 索引 性 能 的 提升 ， 新 增 了 数据 转换 节点 类 型 ， 新 增 了 一 种 内 置 的 脚本 Painless， 新 增 了 几 种 数据 结构 ， 搜 索 和 索引 也 发 生 了 一 些 变化 ， 增 加 了 几 个 友好 性 
接口 ， 对 弹性 支持 得 更 好 ， 增 加 了 Java REST 客 户 端 ， 新 增 了 迁移 助手 。 


A.1.1 升级 指南 


5.0 版 本 的 Elasticsearch 可 以 读 取 2.X 版 本 生成 的 索引 ， 所 以 2.X 版 本 要 迁移 到 5.X， 需 要 重新 启动 整个 集群 。 系 统 不 支持 1.X 版 本 到 5.X 版 本 的 升级 。 对 1.X 版 本 的 升级 需要 先 对 1.X 版 本 的 索引 进行 重建 ， 然 
后 再 把 索引 加 到 5.0 版 本 中 。 


5.0 版 本 的 系统 提供 了 一 个 迁移 助手 插件 ， 可 以 帮助 系统 从 2.3 以 上 的 版 本 迁移 到 5.X 版 本 。 


A.1.2 索引 性 能 


由 于 采用 了 很 多 新 的 技术 ， 在 Elasticsearch 5.0.0 中 的 索引 性 能 有 了 明显 的 提高 。 这 些 新 技术 包括 采用 了 新 的 数字 类 型 结构 ， 在 并 发 更 新 到 同一 文档 中 采用 了 新 的 技术 减少 了 锁 的 冲突 ， 在 同步 事务 日 志 
时 减少 锁定 的 条 件 。 采 用 了 异步 同步 日 志 机 制 ， 减 少 了 磁盘 寻 址 的 时 间 。Elasticsearch 自 动 生成 文档 ID 时 采用 了 基于 时 间 的 用 户 实例 ， 增 加 了 比较 大 的 效率 。 支 持 实时 获取 文档 内 部 的 更 改 ， 可 以 增加 更 多 
的 可 用 内 存 用 于 索引 缓冲 区 ， 同 时 在 垃圾 收集 中 花费 更 少 的 时 间 。 通 常情 况 ， 可 以 提高 25%~80% 的 效率 。 


在 Elasticsearch 5.0.0 中 ， 新 增 了 数据 转换 节点 (Ingest Nodes) 。 它 可 以 不 依赖 于 Logstash 实 现 常用 的 过 滤 能 力 ， 比 如 grok、split、convert、date 等 。 它 可 以 用 来 执行 常见 的 数据 转换 和 处 理 。 可 
以 使 用 转换 节点 在 实际 索引 之 前 对 文档 进行 预 处 理 。 在 任何 转换 节点 中 ， 处 理 索引 或 者 块 处 理 之 前 进行 预 处 理 转换 。 可 以 在 任何 节点 开启 转换 功能 ， 或 者 建立 单独 的 转换 节点 。 在 默认 情况 下 ， 在 任何 节点 
都 开启 了 转换 能 力 ， 如 果 要 关闭 转换 能 力 ， 需 要 在 配置 文件 中 添加 : node.ingest:false, 


在 索引 文档 之 前 进行 预 处 理 ， 它 定义 了 一 个 指向 一 系列 处 理 器 的 管道 。 每 个 处 理 器 以 某 种 方式 转换 文档 。 例 如 ， 你 可 能 有 一 个 管道 ， 包 括 一 个 处 理 器 ， 从 文档 中 删除 字段 ， 然 后 进入 另 一 个 处 理 器 ， 对 
文档 中 的 字段 进行 重 命名 。 


一 个 | 


使 


个 管道 ， 你 只 需 在 一 个 索引 或 批量 请 求 后 加 入 管道 参数 。 例 如 : 


请 求 : PUT http://127.0.0.1:9200/secisland/secilog/my-id?pipeline=my_pipeline_id 


参数 
{ 
foo" "bar 
} 
在 使 用 前 ， 需 要 先 定义 管道 ， 例 如 定义 上 面 的 管道 : 


请 求 : PUT http://127.0.0.1:9200/_ingest/pipeline/my-pipeline-id 


"description" : 
"processors" : 


"describe pipeline", 
[ 
: {"field": 


"foo", "value": "bar"} 


A.1.4 新 增 脚本 语言 


由 于 外 部 的 脚本 引擎 太 过 于 强大 ， 什 么 都 能 做 ， 
无 痛 使 
速度 要 快 好 几 倍 ， 并 且 支 持 Java 静 态 类 型 ， 语 法 保持 和 


A.1.5 ”新 的 数据 结构 


在 Elasticsearch 5.0 版 本 中 集成 了 Lucene 6, Lucene 6 对 数字 类 型 和 地 理 类 型 增加 了 一 个 新 的 点 数据 结构 ， 叫 做 K-Ds 树 ， 它 改变 了 数字 类 型 的 索引 和 搜索 。 增 加 了 36% 的 查询 速度 ， 增 力 
LatLonPoint 结 构 修改 了 地 理 点 类 型 ， 使 地 理 点 查询 的 性 能 增加 了 一 倍 。 同 时 还 增 
。 这 些 新 类 型 意味 着 在 许 


度 ,减少 了 66% 的 硬盘 空间 占 
精度 (half_ float) 浮 点 类 型 


， 减 少 了 85% 的 内 存 使 


A.1.6 友好 性 接口 变化 


1. 索 引 的 改进 


不 好 或 者 设置 不 当 就 会 引起 安全 风险 ， 基 于 安全 和 性 能 


， 这 个 脚本 引擎 默认 是 开启 的 。 和 Groove 的 沙 盒 机 制 不 一 样 ，Painless 使 F 
Groove 类 似 ， 还 支持 Java 的 lambda 表 达 式 。 


16 位 ) 和 大 浮 点 类 型 (scaled_float) ， 它 们 使 


由 于 Elasticsearch 中 的 配置 实在 太 多 ， 在 新 的 5.0 版 本 中 ， 对 配置 验证 更 


在 Elasticsearch 5.0 之 前 的 版 本 中 ， 索 引 的 分 片 数 是 固 


它 的 


定 的 


， 设 置 好 了 之 


口 


。 新 增加 的 |P 字 段 支 持 IP4 和 1P6。 根 据 Lucene 6 新 的 


面 的 考虑 ， 在 Elasticsearch 5.0 中 引入 了 一 个 新 的 脚本 引擎 Painless， 顾 名 思 义 ， 简 单 安全 ， 
白 名 单 来 限制 函数 与 字段 的 访问 ， 针 对 Elasticsearch 的 场景 来 进行 优化 ， 只 做 Elasticsearch 数 据 的 操作 ， 更 加 轻 量 级 ， 


了 数据 压缩 技术 来 减少 磁盘 占 


了 719% 索 引 
hp 了 一 个 半 
的 空间 。 


多 情况 下 ， 特 别 是 在 数字 型 数据 中 将 显著 减少 磁盘 占 


0 严格 ， 保 证 原子 性 ， 如 果 其 中 一 项 失败 ， 那 整个 更 新 请 求 都 会 失败 ， 不 会 一 半 成 功 一 半 失 败 。 新 增 了 一 个 Shrink 接 


后 不 能 修改 ， 如 果 发 现 分 片 太 多 或 者 太 少 ， 如 果 要 修改 


因数 。 如 之 前 是 15 个 分 片 ， 你 可 以 收缩 成 5 个 或 者 3 个 又 或 者 1 个 ， 那 么 我 们 就 可 以 想象 成 这 样 一 种 场景 ， 在 写 入 压力 非常 大 的 收集 阶段 ， 设 置 足够 多 的 索引 ， 充 分 利 
后 收缩 成 更 少 的 shard， 提 高 查询 性 能 。 新 增 了 一 个 Rollover 接 


， 只 能 重建 索引 。 在 5.0 中 增加 了 Shrink 接 


， 它 可 将 分 片 数 进行 收缩 成 
shard 的 并 行 写 能 力 ， 索 引 写 完 之 


对 于 日 志 类 的 数据 一 般 按 天 来 对 索引 进行 分 割 (数据 量 更 大 还 能 进一步 拆 分 ) 。 以 前 是 在 程序 里 设置 一 个 自动 生成 索引 的 模板 ， 例 如 logstash 中 的 logstash-[YYYY-MM-DD] 模 板 ， 现 在 5.0 版 中 提供 了 


一 个 更 加 简单 的 方式 : Rollover API, ilk: 


请 求 : PUT http://127.0.0.1:9200/logs-000001 


"aliases": { 
"logs write": {} 


} 


} 
# Add > 1000 documents to logs-000001 


请 求 : POST http://127.0.0.1:9200/logs write/_rollover 


BH 
{ 
"conditions": { 
"max age": "7a", 
"max docs": 1000 


} 
} 


从 上 面 可 以 看 到 ， 首 先 创建 一 个 logs-0001 索 引 ， 它 有 一 个 别名 是 logs_write， 然 后 给 这 个 logs_write 创 建 了 一 个 rollover 规 则 ， 即 这 个 索引 文档 不 超过 1000 个 或 者 最 多 保存 7 天 的 数据 ， 超 过 会 
别名 到 logs-0002。 也 可 以 设置 索引 的 setting、mapping 等 参数 ， 剩 下 的 Elasticsearch 会 


2. 新 增 Depreated logging 


自动 帮 你 处 理 。 


动 切换 


大 家 在 用 Elasticsearch 的 时 候 ， 其 实 有 些 接口 可 能 已 经 打上 了 Depreated 标 签 ， 即 废 奔 了 ， 在 将 来 的 某 个 版 本 中 就 会 移 除 ， 当 前 能 用 是 因为 一 般 废弃 的 接口 都 不 会 立即 移 除 ， 给 足够 的 时 间 迁 移 ， 但 是 
也 是 需要 知道 哪些 不 能 用 了 ， 要 改 应 用 代码 了 。 所 以 现在 有 了 Depreated 日 志 ， 当 打开 这 个 日 志 之 后 ， 调 用 的 接口 如 果 已 经 是 废弃 的 接口 ， 就 会 记录 下 日 志 ， 那 么 接 下 来 的 事情 你 就 知道 应 该 怎么 做 了 。 


3. 新 增 Cluster allocation explain 接 


口 


有 人 间 : “ 谁 能 给 我 一 个 shard 不 能 分 配 的 理由 ?“ 
很 多 原因 ， 现 在 提供 的 这 个 explain 接 口 就 是 告诉 你 


前 为 什么 不 能 正常 分 配 的 原 


， 现 在 有 了 ， 如 果 之 前 遇 到 过 分 片 不 能 正常 分 配 的 问题 ， 但 是 不 知道 是 什么 原 


， 方 便 解 决 问题 。 


因 


， 只 能 尝试 手动 路 由 或 者 重启 节点 ， 但 是 不 一 定 能 解决 ， 其 实 里 


A.1.7 弹性 


在 Elasticsearch 5.0 版 本 中 ， 分 布 式 模型 的 每 一 部 分 都 已 分 离 ， 重 构 ， 简 化 ， 并 使 之 更 可 靠 。 群 集 状态 更 新 要 等 待 集群 中 的 所 有 节点 确认 。 当 主 分 片 复制 失败 的 时 候 ， 需 要 等 待 master 节 点 的 响应 。 索 
引 的 数据 路 径 现 在 使 用 UUID， 而 不 是 索引 名 称 ， 这 样 可 以 避免 命名 冲突 。 


在 Elasticsearch 5.0 中 增加 了 启动 检查 来 确保 配置 的 正确 性 。 同 时 引入 了 开发 模式 和 生产 模式 两 种 方式 ， 对 生产 模式 的 检查 会 更 加 严格 。 系 统 增 加 了 新 的 内 存 控制 器 ， 在 聚合 请 求 等 过 程 中 监控 内 存 的 
使 用 ， 当 聚合 内 存 有 可 能 过 大 的 时 候 则 中 断 查 询 请 求 ， 正 常情 况 下 ， 内 存 不 足 的 情况 基本 上 不 会 发 生 了 。 


对 多 用 户 的 情况 下 ， 系 统 增 加 了 更 多 的 权限 控制 来 减少 普通 用 户 的 误 操作 ， 例 如 : 请 求 超时 后 禁用 文本 字段 的 数据 加 载 ， 限 制 分 片 请 求 的 数量 ， 限 制 映射 的 字段 数量 等 。 


A.1.8 Java RestClient 客 户 端 


在 Elasticsearch 5.0 中 提供 了 一 个 Java 原 生 的 REST 客 户 端 SDK， 相 比 之 前 的 Tran-sportClient， 版 本 依然 简单 ， 集 群 升级 不 影响 ， 支 持 跨 Java 版 本 的 调用 等 ， 新 的 基于 HTTP 协 议 的 客户 端 对 
Elasticsearch 的 依赖 解 厢 ， 没 有 jar 包 冲突 ， 提 供 了 集群 节点 自动 发 现 、 日 志 处 理 、 节 点 请 求 失败 自动 进行 请 求 轮 询 ， 充 分 发 挥 Elasticsearch 的 高 可 用 能 力 ， 并 且 性 能 不 相 上 下 。 


A.1.9 ”迁移 助手 


在 Elasticsearch 5.0 中 提供 了 一 个 迁移 助手 ， 它 是 一 个 网 站 的 插件 ， 可 以 帮助 你 从 Elasticsearch 2.3.x/2.4.x 版 本 到 5.x 版 本 的 迁移 。 配 备 了 三 个 工具 : 
- 集群 的 检查 : 在 群集 、 节 点 和 索引 上 运行 一 系列 检查 ， 并 提醒 在 升级 之 前 需要 纠正 的 任何 已 知 问题 。 
“ 重建 索引 助手 : 在 V2.0.0 版 本 之 前 的 索引 需要 重建 才 可 以 在 5.0 中 识别 。 重 建 索引 助手 通过 一 个 按钮 升级 索引 。 
“ 过 期 接口 日 志 : 当 使 用 过 期 接口 时 ， 系 统 会 把 过 期 的 日 志 打 出 来 ， 助 手 可 以 在 集群 中 打开 或 者 关闭 过 期 日 志 打印 功能 。 
A2 索引 相关 的 变化 
A.2.1 搜索 和 DSL 查 询 的 变化 


1.search_type=count 参 数 移 除 


这 个 是 在 2.0 版 本 中 已 经 不 推荐 使 用 的 参数 ， 取 而 代 之 的 是 用 查询 ，size 设 为 0。 


请 求 : POST http://127.0.0.1:9200/secisland/_search 


参数 
{ 
"size": 0, 
"aggs": { 
"my terms": { 


"terms": {"field": "foo"} 
} 
} 
} 


2.search_type=scan 参 数 移 除 


这 个 是 在 2.1 版 本 中 已 经 不 推荐 使 用 的 参数 。 现 在 滚动 请 求 用 _doc 排 序 达到 同样 的 效果 。 


请 求 : POST http://127.0.0.1:9200/secisland/_search?scroll=2m 


3. 分 片 查询 限制 


在 1000 个 以 内 ， 因 为 分 片 查询 会 消耗 大 量 的 内 存 和 CPU， 如 果 想 要 绕 开 这 个 限制 ， 需 要 在 配置 文件 中 修改 参数 : action.search.shard_count.limit。 


3.1.fields 参 数 将 被 stored fields 参 数 蔡 换 ， 它 只 返回 存储 的 字段 ， 将 不 再 从 _source 字 段 中 获取 。 


回 


3.2.fielddata_fields 参 数 将 被 docvalue fields 参 数 蔡 换 。 


3.3. 是 否 存在 接口 取消 ， 取 而 代 之 的 是 用 查询 获得 ， 参 数 size 设 为 0，terminate_after 设 置 为 1。 


4 查询 变化 
4.1. 不 支持 geo_point 的 term 查 询 。 


4.2.fuzzy 查 询 在 numeric，date，ip 字 段 中 失效 ， 取 而 代 之 的 是 范围 查询 。 


4.3. 在 _uid 和 _id 字 段 中 查询 range 和 prefix 将 不 被 支持 。 


4.4. 查 询 不 存在 的 索引 将 返回 失败 ， 而 不 是 返回 no hits. 


4.5. 在 fuzzy 查 询 中 将 不 支持 min_similarity 参 数 。 
4.6. 在 query_string 查 询 中 将 不 支持 fuzzy_min_sim 参 数 。 


4.7. 在 completion suggester 中 取消 edit_distance 参 数 。 


4.8. 在 索引 查询 中 将 不 再 支持 no_match_filter 参 数 。 


4 .9. 在 庶 套 查询 中 将 不 再 支持 filter 字 段 查询 。 


4.10. 在 term 查 询 中 将 不 再 支持 minimum_should_match 和 disable_coord， 取 消 了 execution 参 数 。 


4.11. 在 _score 查 询 中 取消 了 top level 过 滤 。 


4.12. 在 span_near 查 询 中 取消 了 collect_payloads 参 数 。 


4.13. 在 nested 和 has_child 查 询 中 取消 了 score_type 参 数 ，has_parent 查 询 中 取消 了 score_mode 和 total score mode 类 型 。 


4.14. 在 has_child 查 询 中 max_children 参 数 在 以 前 的 版 本 中 设置 为 0 表示 没有 限制 ， 现 在 表示 0。 


4.15. 如 果 field_names 字 段 被 禁用 时 ，exists 查 询 将 返回 失败 。 


4.16. 如 果 cross fields，phrase，phrase_prefix 类 型 中 有 模糊 (fuzziness) 查询 ， 则 multi_match 查 询 将 失败 。 


4.17.GeoPolygonQuery，GeoDistanceQuery，GeoBoundingBoxQuery 查 询 中 coerce，normalize，ignore_malformed 参 数 将 失效 ， 用 validation_method 参 数 代替。 


4.18.geo_distance_range 查 询 将 取消 ， 将 用 geo_distance 聚 合 来 代替。 


4.19. 在 search 接 口中 top level 过 滤 将 取消 ， 用 post_ filter 来 代替 。 


4.20. 多 个 高 亮 显示 名 称 将 不 被 支持 ， 唯 一 支持 的 是 plain，fvh， 


postings。 


4.21.term vectors 接 口 不 再 支持 未 映射 的 字段 的 映射 。DFS 参 数 在 term vectors APl 中 已 经 被 完全 删除 。 


4.22.reverse 参 数 在 排序 中 将 被 取消 ， 在 validation_method 方 法 中 取消 coerce 和 ignore_malformed 参 数 。 


4.23.Top level inner hits 语 法 被 取消 ，inner hits 只 能 存在 于 nested，has_child，has_parent 查 询 中 。 


5. 查 询 分 析 器 


在 profiling 查 询 的 返回 值 中 ，query_ type 改名 为 type，lucene 改 名 为 description 


6 .搜索 偏好 


数 ， 例 如 _shards:2，3|_primary。 


搜索 结果 分 页 增加 了 search_after 特 性 ， 它 有 效 地 跳 过 以 前 返回 的 结果 只 返回 下 一 页 的 数 拉 


A2.2 索引 映射 的 变化 


1.String 类 型 


居 。 移 动 搜索 现在 可 以 并 行 执行 。 默 认 使 用 BM25 评 分 算法 ， 蔡 换 之 前 的 TF/IDF 评 分 算法 。 


引入 新 的 字段 类 型 Text/Keyword 来 蔡 换 String， 即 以 前 的 string 类 型 分 成 text 和 keyword 两 种 类 型 。keyword 类 型 的 数据 只 能 完全 匹配 ， 适 合 那些 不 需要 分 词 的 数据 ， 对 过 滤 、 聚 合 非常 友好 ; text 当 


然 就 是 全 文 检索 需要 分 词 的 字段 类 型 了 。 将 类 型 分 开 的 好 处 就 是 使 
烦 。 另 外 string 类 型 暂时 还 保留 的 ， 但 6.0 版 本 会 移 除 。 


字符 串 映射 现在 默认 如 下 : 


"type": "text", 
"fields": { 

"keyword": {"type": "keyword", "ignore above": 256} 
} 


字符 串 被 映射 成 了 两 个 字段 ， 一 个 字段 进行 分 词 ， 另 一 个 字段 不 进行 分 词 ， 可 以 


数字 类 型 现在 是 一 种 全 新 的 数据 结构 ， 被 称 为 BKD tree。 相 比 以 前 的 结构 有 更 快 的 对 比 查询 效率 和 占 | 


以 同时 映射 为 数字 类 型 和 keyword 类 型 。 例 如 : 


请 求 : PUT http://127.0.0.1:9200/secisland 


参数 
d 
"mappings": { 
"my type": { 
"properties": { 
"my number": { 
"Eype": "long", 
"fields": { 
"keyword": {"type": "keyword"} 


3.geo_point ER 


起 来 更 加 简 


清晰 ， 以 前 需 


设置 analyzer 和 index， 并 且 有 很 多 都 是 自 定义 的 分 词 器 ， 从 名 称 根 本 看 不 出 来 到 底 分 词 没有 ， 上 


于 聚合 或 者 排序 。 


起 来 很 麻 


更 少 的 磁盘 空间 。 注 意 ， 数 字 类 型 将 不 参与 索引 的 评分 ， 如 果 需 要 对 数字 字段 进行 参与 评分 ， 可 


和 数字 类 型 类 似 ，Geo point 字 段 类 型 也 用 了 BKD tree 结 构 。 由 于 这 种 结构 从 根本 上 进行 多 维 空间 数据 的 支持 ， 所 以 下 面 字段 的 参数 将 不 再 支持 : 
Geohash，geohash_prefix，geohash_precision，lat_ lon。Geohashes 在 接口 中 仍然 可 以 使 用 ， 但 它 不 再 是 用 来 索引 地 理 的 数据 点 。 


4. timestamp 和 _ttl 字 段 


元 字段 timestamp 和 ttl 字 段 将 不 再 被 支持 ， 对 于 timestamp 可 以 在 文档 中 添加 日 期 字段 来 代 蔡 或 者 用 ingest pipline， 例 如 : 


请 求 : PUT http://127.0.0.1:9200/_ingest/pipeline/timestamp 


参数 
{ 
"description" : "Adds a timestamp field at the current time", 
"processors" : [ { 
"sec" — { 
"field": "timestamp", 
"value": "{{_ingest.timestamp}}" 


} 
FI 
i 


请 求 : PUT http://127.0.0.1:9200/newindex/type/1?pipeline=timestamp 


参数 : 


{"example": "data"} 


请 求 : GET http://127.0.0.1:9200/newindex/type/1 


对 于 tt 可 以 用 time-based 索 引 或 者 在 一 个 时 间 戳 字段 范围 


请 求 : POST http://127 


.0.0.1:9200/index/type/_delete_by query 


查询 (_delete-by-query) 任务 来 蔡 换 。 


参数 
{ 
"query": { 
"range" : { 
"timestamp" : {"1t" : "2016-05-01"} 
} 
} 
} 
5. 索 引 属性 


所 有 在 用 的 字段 类 型 ， 除 了 将 要 废弃 的 string， 索 引 


6 . 非 索引 字段 的 文档 值 


属性 只 有 true/false 两 种 ， 用 来 代替 之 前 的 not_analyzed/no，string 字 段 类 型 还 是 analyzed/not_analyzed/no. 


在 此 之 前 ,设置 一 个 字段 的 属性 为 index:no 将 禁用 文档 的 值 ， 现 在 ,文档 的 值 对 数字 和 boolean 类 型 的 值 总 是 有 效 ， 除 非 doc_values 的 值 设置 为 false。 


7. 默 认 的 浮 点 类 型 由 float 来 代替 double 


在 Elasticsearch 5.0 中 动态 映射 的 浮 点 类 型 默认 为 float 类 型 ， 而 不 是 double 类 型 ， 因 为 大 多 数 情况 下 float 类 型 已 经 够 用 了 ， 而 float 类 型 将 显著 的 减少 磁盘 空间 的 占用 。 


norms: 现在 用 boolean 来 代替 对 象 ，norms.enabled 被 替换 成 了 boolean、norms.loading 参 数 eager 将 不 再 起 作用 ， 现 在 norms 是 基于 磁盘 的 。 


设置 fielddata.format:doc_values 用 于 隐 式 启用 字段 的 文档 映射 中 。 现 在 隐 式 方式 将 不 再 起 作用 ， 需 要 明确 地 设置 doc_values 的 值 为 有 效 或 者 无 效 。 


fielddata.filter.regex 参 数 将 不 再 支持 ， 未 来 版 本 中 将 会 取消 。 


8. 字 段 映 射 限制 


在 Elasticsearch 5.0 中 对 索引 中 的 字段 进行 了 限制 ， 最 大 1000 个 字段 。 


字段 的 最 大 深度 (WEFR) 是 20 层 。 


索引 中 吝 套 字段 的 最 大 数量 是 有 限 的 50， 


_parent 字 段 将 不 再 索引 


H 


， 连 接 父母 与 孩子 之 间 的 文件 不 再 依赖 索引 字段 ， 


返回 中 的 得 到 的 响应 和 hits 仍 然 包 括 父 标识 。 


因此 从 Elasticsearch 5.0.0 起 _parent 字 段 不 再 索引 。 为 了 找到 文档 中 引用 的 父 id， 可 以 使 有 


_Ssource 映 射 不 再 支持 格式 选项 ， 现 在 只 是 为 了 兼容 性 保留 ， 将 来 将 会 被 取消 。 


核心 类 型 不 再 支持 对 象 符号 (bject notation) ， 它 被 


来 提供 每 个 文档 的 boosts， 例 如 : 


新 的 parent_id 来 进行 查询 。 搜 索 


{ 


"value": "field value", 


"boost": 42 
} 


9._all 查 询 的 精度 


在 _all 上 的 每 个 字段 的 长 


A.2.3 ”percolator 类 型 


度 由 以 前 的 4 个 字 节 压缩 到 了 一 个 字 节 ， 虽 然 这 将 使 索引 的 空间 效率 更 高 ， 但 这 也 意味 着 索引 时 间 的 计算 将 不 太 准确 。 


percolator 字 段 类 型 将 解析 json 结 构 到 本 地 并 存储 到 索引 中 。 因 此 可 以 用 percolate 查 询 来 匹配 提供 的 文档 。 这 种 情况 可 以 理解 为 正常 搜索 的 反 向 ， 一 般 情况 下 我 们 索引 一 个 文档 ， 然 后 通过 搜索 进行 查 
询 。percolator 是 先 存储 搜索 ， 然 后 用 文档 来 进行 查询 是 否 匹 配 搜索 。 


任何 含有 json 对 象 的 列 可 以 被 配置 成 percolator 字 段 ， 例 如 下 面 的 配置 是 映射 percolator 字 段 类 型 ， 这 种 类 型 适用 于 percolate 查 询 : 


{ 
"properties": { 
"query": {"type": "percolator"} 
} 


那么 下 面 的 JSON 代 码 段 可 以 被 索引 为 一 个 本 地 查询 : 


{ 
"query" : { 
"match" : {"field" : "value"} 
} 
} 


Oz Percolator 查 询 必须 是 已 经 存在 的 与 所 使 用 的 percolation 索 引 相 关联 的 映射 ， 为 了 确保 这 些 存在 的 字段 ， 通 过 创建 索引 或 者 设置 映射 来 增加 或 者 更 新 。percolator 类 型 可 以 存在 任何 索引 的 任何 类 型 
中 。 一 个 索引 中 只 能 有 一 个 percolator 类 型 字段 。 


1.percolate 查 询 


percolate 查 询 可 以 将 存储 在 索引 中 的 查询 进行 字段 匹配 。 例 如 创建 两 个 映射 的 索引 : 


请 求 : PUT http://127.0.0.1:9200/secisland 


"mappings": { 
"doctype": { 
"properties": { 
"message": {"type": "text"} 


DH 
"queries": { 
"properties": { 
"query": {"type": "percolator"} 


doctype 映 射 在 percolator 查 询 中 被 索引 到 一 个 临时 索引 之 前 用 于 预 处 理 文件 的 映射 。 


queries 映 射 用 于 索引 查询 文档 。query 字 段 将 产生 一 个 JSON 对 象 代表 一 个 实际 的 Elasticsearch 查 询 。query 字 段 设 置 的 类 型 为 percolator 类 型 ， 此 字段 类 型 可 以 理解 为 查询 DSL 和 存储 这 些 查询 ， 在 定 
义 了 percolate 查 询 时 它 可 以 用 于 匹配 文档 。 


在 percolator 中 添加 一 个 查询 : 


请 求 : PUT http://127.0.0.1:9200/secisland/queries/1?refresh 


"query" : { 
"match" : {"message" : "bonsai tree"} 
} 
} 


在 登记 percolator 的 查询 中 匹配 文档 : 


请 求 : POST http://127.0.0.1:9200/secisland/search 


参数 
{ 
"query" : { 
"percolate" : { 
"field" : "query" 
"document_type" : "doctype", 
"document" : {"message" : "A new bonsai tree in the office"} 
} 
} 
} 
返回 值 : 
{ 
"took": 13, 
"timed out": false, 
"_shards": {"total": 5,"successful": 5,"failed": 0}, 
mits": :{ 
ntotal”s I 


` 
"max_score": 0.5716521, 
“hits”: [ 


查询 的 参数 如 下 : 

` field: 定义 percolator 字 段 类 型 的 字段 ， 必 填 。 

. document_type: 映射 的 稳定 字段 ， 必 填 。 

` document: 需要 匹配 的 原始 文档 。document 文 档 同时 也 可 以 是 存储 在 索引 中 的 文档 。 在 这 种 情况 下 ， 文 档 参 数 可 以 被 蔡 换 为 以 下 参数 : index, type. id, routing, preference, version. 
在 前 面 例子 的 基础 上 ， 插 入 我 们 要 percolate 的 文件 索引 : 


请 求 : PUT http://127.0.0.1:9200/secisland/message/1 


{ 


"message" : "A new bonsai tree in the office" 
} 
返回 值 : 
{ 

" ingdex": "secisland", 


"version": d 

" shards": {"total": 2,"successful": 1,"failed": 0}, 
"created": true, 

"result": "created" 


Percolating 已 经 存在 的 文档 ， 可 以 使 用 搜索 索引 、 类 型 、id 等 方式 进行 替换 document 参 数 进行 查询 ,例如 : 


请 求 : GET http://127.0.0.1:9200/secisland/search 


返回 值 : 
"query" : { 

"percolate" : { 
"field": "query", 
"document_type" : "doctype", 
"index" : "secisland", 
"type" : "message", 
"ig" : "1", 
"version" : 1 


这 个 时 候 dqdocument 参 数 被 蔡 换 成 了 index、type、id、version。 


version 是 可 选 的 ， 但 在 某 些 情况 下 是 有 用 的 。 


这 个 搜索 的 返回 值 和 之 前 的 返回 值 是 一 样 的 。 


2.percolate 查 询 高 亮 显示 


percolate 查 询 同时 也 支持 高 亮 显示 ， 例 如 保存 两 查询 : 


查询 1 


请 求 : PUT http://127.0.0.1:9200/secisland/queries/1?refresh 


"query" : { 
"match" : {"message" : "brown fox"} 
} 
} 


查询 2 


请 求 : PUT http://127.0.0.1:9200/secisland/queries/2?refresh 


"query" : { 
"match" : {"message" : "lazy dog"} 
} 
} 


高 亮 查询 设置 : 


请 求 : GET http://127.0.0.1:9200/secisland/search 


"query" : { 
"percolate" : { 
"field": "query", 
"document_type" : "doctype", 
"document" : {"message" : "The quick brown fox jumps over the lazy dog"} 
} 
hy 


"highlight": { 
"fields": { 
"message": {} 
} 
} 


返回 值 : 


"tonk": To 

"timed out": false, 

" shards": { 
"total": 5, 
"successful": 5, 
"failed"; 0 


r 
": 0.5446649, 


": {"message": "lazy dog"} 


hy 
"highlight": { 
"message": [ 
"The quick brown fox jumps over the <em>lazy</em> <em>dog</em>" 


: "secisland", 
": "queries", 


i", 
": 0.5446649, 


: {"message": "brown fox"} 


ty 
"highlight": { 
"message": [ 
"The quick <em>brown</em> <em>fox</em> jumps over the lazy dog" 


A24 索引 的 变化 


当 运 行 索引 映射 的 时 候 禁 止 关闭 或 删除 索引 操作 。 


在 5.0 之 前 的 版 本 ， 当 索引 正在 进行 映射 操作 的 时 候 ， 关 闭 索引 或 者 删除 索引 会 导致 映射 失败 。 在 5.0 中 ， 如 果 索 引 正 在 进行 映射 操作 ， 则 禁止 请 求 关闭 索引 或 者 删除 索引 操作 。 但 这 种 行为 对 部 分 映射 


行为 和 以 前 的 方式 没有 变化 。 


由 于 基于 磁盘 的 规则 和 默认 的 文档 值 发 生 了 几 处 变化 ， 导 致 warmers 已 经 没有 作用 了 ， 因 此 warmer 和 warmer API 接 口 被 删除 。 

当 更 新 到 5.0 时 候 ， 系 统 会 直接 忽略 掉 定义 在 索引 中 的 warmers。 

在 节点 统计 和 精简 节点 接口 中 的 OS 统计 中 添加 了 CPU 的 利用 率 。 在 返回 节点 统计 的 接口 对 象 中 增加 了 一 个 新 的 对 象 。 这 个 对 象 包括 cpu 的 利用 率 和 load_average 列 。 在 之 前 的 0s 对 象 中 和 cpu 对 象 中 移 
除了 load_average 列 。 现 在 load_average 会 分 别 输出 1 分 钟 ，5 分 钟 和 15 分 钟 的 CPU 利 用 率 ， 如 果 返 回 值 中 没有 任何 数据 ， 表 示 这 个 节点 不 可 用 。 


精简 (cat) 节点 接口 返回 的 CPU 列 被 移 除 ， 取 而 代 之 的 是 load_1m、load_5m、load_15m 表 示 1 分 钟 ， 五 分 钟 和 十 五 分 钟 的 利用 率 。 如 果 返 回 值 中 没有 任何 数据 ， 表 示 这 个 节点 不 可 用 。 


org.elasticsearch.monitor.os.OsStats 这 个 类 做 了 修改 ， 移 除了 getLoadAverage 方 法 。 现 在 在 OsStats 中 增加 了 内 部 类 Cpu， 通 过 Cpu 的 getLoadAverage 方 法 获取 数据 ， 返 回 的 值 不 是 一 个 double 类 


型 ， 而 是 一 个 对 象 类 型 ， 这 个 对 象 包括 了 一 分 钟 ， 五 分 钟 和 十 五 分 钟 里 的 利 


索引 统计 中 的 建议 统计 被 移 到 搜索 统计 中 。 作 为 搜索 统计 中 的 一 部 分 。 


为 了 减少 多 索引 操作 的 困惑 ， 在 创建 索引 的 时 候 不 能 以 + 或 者 - 


头 。 之 前 建 的 索引 还 可 以 正常 使 用 。 


率 ，Cpu 方 法 增加 了 getPercent 方 法 来 返回 当前 的 利用 率 。 


索引 别名 将 不 再 支持 索引 路 由 (index_routing) ， 同 时 也 不 支持 搜索 路 由 (search_routing) 。 


在 5.0 创 建文 档 接口 中 


op_type=create 参 数 将 不 再 支持 具体 id。 


因 


为 这 两 个 接 


并 没有 完全 测试 ， 同 时 我 们 希望 直接 对 索引 进行 这 些 操作 。 


当 调用 _flush 接 口 等 待 的 时 候 wait if_ongoing 标 志 始 终 返 回 true， 因 为 在 同一 时 刻 有 可 能 有 别 的 操作 对 同一 个 分 片 进行 刷新 。 如 果 返 回 false 的 时 候 ， 其 他 操作 对 同一 个 分 片 刷 新 则 会 导致 正在 进行 的 刷 


新 操作 被 终止 而 不 会 返回 任何 错误 。 


A.2.5 聚合 变化 


在 之 前 的 版 本 中 ，Elasticsearch 提 供 了 Aggregation 缓 存 ， 如 果 你 的 数据 没有 变化 ，Elasticsearch 能 


to:now，now 是 一 个 变量 ， 每 时 每 刻 都 在 变 ， 所 以 query 条 件 一 直 在 变 ， 这 样 缓存 也 就 没有 利 


“ 首先 ，now 关 键 字 最 终 会 被 重 写成 具体 的 值 。 


直接 返回 上 次 的 缓存 结果 。 但 是 有 一 个 场景 比较 特殊 ， 就 是 date 分 组 ， 如 : from:now-30d 


起 来 。 在 Elasticsearch 5.0 中 做 了 如 下 改进 : 


“ 其 次 ， 每 个 分 片 会 根据 自己 的 数据 范围 来 重 写 查询 为 match_all 或 者 match_none 的 查询 ， 所 以 现在 的 查询 能 够 被 有 效 地 缓存 ， 并 且 只 有 个 别 数据 有 变化 的 分 片 才 需要 重新 计算 ， 大 大 提升 了 查询 速度 。 


数字 类 型 在 新 版 本 进行 了 重 构 ， 采 
可 能 会 导致 效率 的 降低 。 


如 果 这 个 数字 字段 需要 进行 排序 、 范 围 查询 、 统 计 聚 合 的 时 候 ， 建 议 


IP 范 围 聚合 现在 Elasticsearch 支 持 IPv6 协 议 ，IP 地 址 在 存储 的 时 候 用 了 二 进 制 存储 而 不 是 用 数字 进行 存储 。 因 


keyword 字 段 来 代 蔡 数 字 字段 。 


了 不 同 的 数据 结构 ， 这 种 结构 有 更 好 的 范围 查询 。 然 而 ， 这 种 结构 不 参与 文档 评分 操作 。 为 了 评估 在 后 台 匹 配 文档 的 数量 ， 数 字 字 段 需要 返回 到 运行 的 查询 中 ， 这 


D 


此 IP 聚 合 的 时 候 将 不 再 返 


地 理 信息 网 格 聚合 的 时 候 ， 将 不 再 支持 size:0 为 零 ， 新 版 本 中 要 求 size 必 须 是 大 于 零 的 数字 。 时 间 值 不 再 支持 小 数 ， 例 如 不 再 支持 1.5h， 应 该 写成 90m。 


A.3 ”接口 相关 的 变化 


A.3.1 文档 接口 变化 


对 文档 的 refresh 操 作 将 不 再 支持 truthy 和 falsy 值 。 


在 创建 文档 接口 的 返回 值 中 取消 了 created 参 数 ， 现 在 返回 的 内 容 是 : 当 创 建文 档 的 时 候 返 回 "operation":"create"， 当 修改 文档 的 时 候 返 回 "operation":"index"。 当 用 bulk 操 作 的 时 候 返 回 true。 


在 删除 接口 的 返回 值 中 取消 了 found 参 数 ， 取 而 代 之 的 是 "operation":"deleted"。 当 返回 值 为 "operation":"noop" 的 时 候 表示 没有 找到 文档 。 当 用 bluk 操 作 的 时 候 返 回 true。 


在 5.0 之 前 的 版 本 _reindex 和 _update_by_query only 接 口 在 bulk 失 败 的 时 候 仅仅 返回 retried 的 值 。 例 如 ， 返 回 值 : 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... 

"retries": 10 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... 
} 


现在 当 搜索 失败 的 时 候 也 会 返回 retries 值 。 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... 
"retries": { ~ 

"bulk": 10, 

"search": 1 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... 


} 


getAPI 接 口中 当 最 后 一 次 刷新 后 ， 如 果 文 档 进行 了 修改 ， 而 这 个 时 候 下 一 次 刷新 还 没有 执行 ， 这 个 时 候 get 接 口 就 会 产生 问题 。 如 果 相 同 的 文档 频繁 的 更 新 将 会 产生 冲突 ， 这 种 情况 下 ， 可 以 使 用 
realtime=false 参 数 进行 请 求 。 


mget API 接 口中 字段 fields 被 重新 命名 为 stored fields, 


update 和 bulk 接 口中 的 fields 被 取消 ， 需 要 使 用 _source 来 加 载 字 段 。 


A.3.2 CAT 接口 的 变化 


使 用 Accept 报 头 指定 响应 的 media 类 型 。 


在 精简 接口 API 的 返回 media 类 型 中 ， 以 前 的 版 本 是 通过 Accept 头 的 Content-type 字 段 来 确定 的 ， 这 和 HTTP 规 范 中 的 含义 不 一 致 ， 因 此 新 版 本 删除 了 这 一 特性 。 


_cat/nodes 接 口中 host 字 段 被 移 除 。 因 为 这 个 字段 和 ip 字段 的 内 容 是 一 样 的 。 


在 recovery 接 口中 增加 了 bytes_recovered 和 files_recovered 字 段 ， 分 别 表示 已 恢复 的 字 节 数 和 文件 的 总 数 。 

total_ files 和 total_bytes 字 段 分 别 改名 成 为 files total 和 bytes_total。 

translog 字 段 改名 为 translog_ops_recovered、translog_ total 改名 为 translog_ops、translog_percent 改 名 为 translog_ops_percent， 这 三 个 字段 的 简称 分 别 是 tor、to、top。 
Changes to cat nodes API 


在 nodes 接 口中 ，m 代 表 master，d 代 码 data，i 代 表 ingest 节 点 类 型 ， 一 个 节点 可 以 同时 有 多 个 角色 ， 当 节点 没有 任何 角色 的 时 候 表示 这 个 节点 是 一 个 协调 角色 。 当 这 个 节点 是 集群 的 主 节点 的 时 


候 ，master 列 会 显示 *。 


A.3.3 REST API 的 变化 


在 以 前 的 REST 查 询 中 ， 如 果 有 无 法 识别 的 字符 串 参 数 将 被 忽略 。 从 用 户 的 角度 来 看 ， 这 样 并 不 合理 ， 但 现在 的 版 本 如 果 有 不 能 识别 的 字符 串 参数 将 返回 错误 。 


自 定义 id 的 长 度 如 果 超过 512 则 会 被 拒绝 。 


/_optimize 结 尾 的 请 求 将 被 移 除 ， 取 而 代 之 的 是 / forcemerge。 


在 GET 方 式 的 HTTP 请 求 中 / forcemerge 将 不 再 支持 ， 可 以 换 成 用 POST 方式 的 请 求 。 


创建 索引 的 方式 只 能 用 PUT 方式 ， 之 前 创建 所 以 既 可 以 用 PUT 也 可 以 用 POST。 现 在 只 支持 PUT 方式 。 


判断 索引 是 否 存在 的 接口 HEAD{indexj/ftype} 被 蔡 换 成 了 findexj_mapping/ftypej， 为 了 兼容 性 5.0 版 本 还 可 以 使 用 ， 将 在 6.0 版 本 中 移 除 。 


在 /_cluster/stats 统 计 返 回 值 中 去 掉 了 mem 内 存 部 分 。 


在 接口 /_cluster/state 的 routing table 中 移 除了 分 片 版 本 号 。 在 集群 状态 中 存储 了 分 片 的 id， 用 选择 主 分 片 的 方式 来 代替 版 本 信息 。 


节点 角色 信息 将 不 再 是 节点 属性 的 一 部 分 。 节 点 角色 在 节点 统计 的 返回 值 中 。 


禁止 不 带 引 号 的 JSON， 此 前 ，JSON 文 档 被 允许 有 不 带 引 号 的 字段 的 名 称 ， 这 种 写法 不 是 严谨 的 JSON 格 式 ， 如 果 在 之 前 的 Elasticsearch 版 本 中 有 不 带 引 号 的 字段 ， 有 些 操作 可 能 会 报错 ， 因 此 在 
jvm.options 文 件 中 增加 了 一 个 配置 -Delasticsearch.json.allow_unquoted field_names。 这 个 配置 将 在 6.0 版 本 中 移 除 。 


过 滤 接 口中 的 char filters 参 数 被 命名 为 char filter, token _filters 参 数 将 被 移 除 ， 用 filter 代 蔡 。 


Delete-By-Query 插 件 中 的 DELETE/_query 请 求 被 移 除 ， 用 Delete By Query 接 口 代替 。 


PUT/_scripts/{langjMfidyM_create 创 建 脚本 索引 被 移 除 ， 用 stored scripts RE. 


PUT/_searchy/template/fidy_create 创 建 索引 模板 被 移 除 。 用 Pre-registered 模 板 来 代 蔡 。 


有 些 REST 接 口 的 结尾 可 以 增加 键 值 对 的 方式 ， 现 在 这 种 方式 被 移 除 。 


在 _cluster/health 以 前 需要 大 量 的 wait_for_relocating_shards 参 数 ， 现 在 只 需要 设置 boolean 类 型 的 wait_for_no_relocating_shards 参 数 ， 如 果 设 置 为 true， 表 示 请 求 将 等 待 ( 直 到 配置 超时 ) 的 集群 
返回 之 前 没有 分 片 的 搬迁 。 默 认为 false， 这 意味 着 操作 不 会 等 待 。 


A4 配置 相关 的 变化 


A.4.1 参数 变化 


配置 参数 在 生效 前 将 会 进行 校 验 。 在 启动 节点 的 时 候 ， 节 点 级 别 的 设置 和 默认 的 节点 设置 都 会 被 验证 ; 动态 设置 的 集群 和 索引 设置 在 增加 或 者 修改 集群 状态 之 前 将 被 校 验 。 


所 有 配置 都 注册 在 节点 或 者 使 用 的 传 出 客户 端 。 客 户 自 定义 的 插件 的 配置 注册 在 插件 加 载 的 地 方 ， 注 册 的 方法 是 SettingsModule 类 的 registerSettings 方 法 。 


Index Level Settings 


在 之 前 的 版 本 中 ， 指 定 索引 级 别 的 设置 在 elasticsearch.yaml 文 件 中 配置 ， 或 者 在 启动 命令 行 中 配置 。 从 5.0 以 后 仅仅 选择 地 设置 在 节点 层 生 效 ， 其 他 设置 可 以 设置 在 具体 的 索引 中 。 索 引 模板 被 在 每 个 


索引 上 的 默认 值 蔡 换 。 


1. 节 点 设置 
名 称 设置 被 取消 ， 被 node.name 蔡 换 ，-Dname=some_node_name 方 式 制 定名 称 将 被 取消 。 
“ node.add_id_to_custom_path 配 置 参 数 修改 名 称 为 add_lock_id_to_custom_path。 
` node.name 的 默认 名 称 是 节点 id 的 前 7 个 字母 ， 节 点 id 是 随机 产生 的 UUID。 


` node.mode 和 node.locdl 两 个 设置 被 移 除 。 本 地 模式 通过 discovery.type:locd 和 transport.type:locdl 来 进行 配置 。 可 以 通过 http.enabled:false 来 禁止 http 访 问 。 


2. 节 点 属性 设置 


节点 级 别 的 属性 可 以 通过 过 滤 来 分 配 ， 可 以 通过 node.attr 前 缀 设置 其 他 节点 识别 或 者 强制 意识 。 在 之 前 的 版 本 是 通过 在 节点 上 设置 特殊 节点 的 属性 。 除 了 这 三 个 
node.master，node.data，node.ingest must 属 性 外 ， 可 以 通过 新 的 node.attr.namespace 命 名 空间 移 除 。 


3. 节 点 类 型 设置 
node.client 设 置 被 移 除 ， 如 果 节 点 设置 了 node.client 节 点 将 无 法 启动 。 可 以 通过 分 别 设 置 node.master，node.data，node.ingest 来 设置 节点 的 类 型 。 


4. 网 关 设 置 


gateway.format 设 置 被 取消 。 默 认 用 format 设 置 smile。 


5.transport Settings 


transport.netty.bind_host 设 置 被 取消 ， 用 transport.bind_host 来 替换 。 


6. 安 全 管理 设置 


安全 管理 security.manager.enabled 设 置 被 移 除 ， 为 了 授权 Elasticsearch 用 户 特殊 的 许可 ， 需 要 编辑 本 地 java 安 全 策略 。 


7. 网 络 设置 


回 


和 私有 网 络 地 址 ) ` 通过 显 式 接口 的 名 称 ， 主 机 


设置 network.host 的 值 为 non_loopback_value 表 示 任 意 选 择 第 一 接口 不 标记 为 环 回 。 相 反 ， 可 以 指定 地 址 范围 (用 local ，_site_ for 制定 所 有 的 环 
名 或 地 址 。 


netty.epollBugWorkaround 被 移 除 ， 在 高 CPU 使 用 率 上 和 早期 的 VM 版 本 有 个 问题 ， 需 要 通过 netty.epollBugWorkaround 配 置 解 决 ， 但 这 个 问题 是 在 Java7 中 才 有 的 ， 现 在 Elasticsearch 5.0 要 求 最 
低 使 用 Java8， 所 以 此 设置 被 移 除 。 


在 此 之 前 ， 全 局 线程 池 类 型 可 以 动态 调整 。 线 程 池 类 型 有 效 地 控制 线程 池 的 支持 队列 ， 修 改 这 些 设置 需要 丰富 的 经 验 ， 修 改 不 好 有 可 能 会 产生 比较 大 的 风险 ， 所 以 删除 这 些 配置 。 现 在 可 以 为 每 个 线程 
池 单 独 调整 相关 的 线程 池 参数 ， 比 如 : keep_alive, queue sizeSS, 


8 线程 池 设置 


建议 线程 池 已 经 取消 了 ， 现 在 用 搜索 线程 池 来 蔡 换 。 


所 有 线程 池 前 缀 的 设置 从 threadpool 到 thread_pool。 
线程 池 的 最 小 参数 设置 从 min 到 core。 


线程 池 的 最 大 参数 设置 从 size 到 max。 


队列 的 大 小 对 于 一 个 固定 的 线程 池 的 设置 必须 queue_size (所 有 其 他 的 变种 ， 以 前 支持 的 都 不 再 支持 ) 。 


现在 线程 池 的 设置 是 在 节点 级 别 进行 设置 的 。 因 此 ， 它 不 可 能 通过 群集 设置 来 更 新 线程 池 。 


9 .分词 器 设置 


分 词 器 的 index.analysis.analyzer.default_index 将 不 再 支持 ， 如 果 想 改变 索引 的 分 词 器 ， 需 要 修改 index.analysis.analyzer.default 参 数 进行 替代 。 


10.Ping settings 


此 前 ， 有 三 种 ping 超 时 设置 : discovery.zen.initial_ping_timeout, discovery.zen.ping.timeoutfidiscovery.zen.ping timeout。 前 两 者 已 被 移 除 ，ping 超 时 设置 现在 只 有 


discovery.zen.ping timeout。ping 超 时 的 默认 值 是 三 秒 。 


discovery.zen.master_election.fiter_client 和 discovery.zen.master_election.filter_data 被 移 除 ， 新 的 参数 用 discovery.zen.master_election.ignore_non_master_pings 来 代替 。 此 设置 用 来 控制 在 


主 节点 选举 时 候 的 ping 响 应 ， 只 有 在 极端 情况 下 才 会 使 用 这 个 参数 ， 平 时 一 般 不 用 配置 。 


11.Recovery 设 置 
此 版 本 删除 了 1 版 本 中 的 恢复 参数 : 
` index.shard.recovery.translog_size $$ 7% A indices.recovery.translog_sizeo 
` index.shard.recovery.translog_ops ZE Aë A indices.recovery.translog_ops.o 
+ index.shard.recovery. file_chunk_size #4% A indices. recovery. file_chunk_size o 


- index.shard.recovery.concurrent_streams #4 A indices.recovery.concurrent_streams o 


+ index.shard.recovery.concurrent_small_file_streams #7 A o 
+ indices.recovery.concurrent_small_file_streams. 


` indices.recovery.max_size_per_sec ZE Aë A indices.recovery.max_bytes_per_sece 


如 果 使 用 以 上 任何 这 些 设置 ， 请 花 时 间 来 检查 配置 的 目的 。 以 上 所 有 的 设置 都 被 认为 是 专家 级 的 设置 ， 如 果 绝 对 必要 的 话 才 可 以 使 用 。 如 果 你 已 经 设 


了 以 上 的 任何 一 条 在 集群 上 请 使 用 update API 和 


设置 相应 的 取代 钥匙 。 


下 列 设置 已 被 删除 ， 而 不 需要 更 换 。 


indices.recovery.concurrent_ small_file_streams 和 ndices.recovery.concurrent file_streams 回 收 率 现在 是 单线 程 的 。 


12 事 务 日 志 设 


index.translog.flush_threshold_ops setting 将 不 再 被 支持 ， 为 了 控制 事物 日 志 的 冲洗 将 使 用 index.translog.flush_threshold_size 来 代替 。 


index.translog.fs.type 中 的 translog 类 型 将 不 再 被 支持 ， 现 在 缓冲 区 是 用 8K 缓 冲 区 。 


Jin} 


之 前 默认 的 事务 日 志 是 在 每 次 index，create，update，delete，bulk 请 求 后 操作 ， 现 在 在 这 些 操作 后 是 不 进行 操作 了 ， 
一 个 小 于 100ms 的 值 ， 防 止 fsyncing 同 时 启用 了 异步 操作 。 特 殊 值 0 不 再 被 支持 。 


index.translog.interval 已 被 删除 。 


13.Request Cache 设 置 
index.cache.query.enable 和 indices.cache.query.size 配 置 被 移 除 ， 取 而 代 之 是 index.requests.cache.enable 和 indices.requests.cache.size。 
indices.requests.cache.clean_interval 取 代 了 indices.cache.clean_interval 
14.Field Data Cache 设 置 
indices.fielddata.cache.clean_interval 设 置 已 被 替换 为 indices.cache.clean_interval。 
15.Allocation 设 置 
clusterrouting.allocation.concurrent_recoveries 设 置 已 被 蔡 换 为 
cluster.routing.allocation.node_concurrent_recoveries, 
16.Similarity 设 置 


默认 的 similarity 已 被 重 命名 为 classic。 


17. 索 引 设 置 


indices.memory.min_shard_index_buffer_size#flindices.memory.max_shard_index buffer size 设置 已 删除 。Elasticsearch 现 在 允许 所 有 堆 使 用 量 | 
indices.memory.index_buffer_ size 的 配置 的 量 就 可 以 使 用 分 片 (默认 为 10% 的 JVM 堆 ) 。 


实 上 ， 它 可 能 是 一 个 性 能 瓶颈 。 现 在 ，index.translog.sync_interval 不 接受 


的 总 和 只 要 低 于 节点 的 


移 除 参数 es.max-open-files。 设 置 es.max-open-files 参 数 为 true， 可 以 打印 系统 进程 打开 文件 的 最 大 个 数 。 这 个 设置 被 取消 ， 可 以 从 节点 信息 的 接 
时 登录 一 个 警告 。 


移 除 参 数 es.netty.gathering。 时 间 证 明 设 置 es.netty.gathering 这 个 参数 为 true 和 false 的 时 候 都 没有 什么 问题 。 


获取 相同 的 信息 ， 如 果 设 置 得 太 低 ， 则 会 在 启动 


移 除 参数 es.useLinkedTransferQueue。es.uselinkedtransferqueue 可 以 用 来 控制 群集 服务 队列 的 实现 ， 在 集群 发 现 过 程 中 处 理 ping 的 响应 。 这 是 一 个 未 被 事实 证 明 的 设置 ， 现 已 删除 。 


缓存 并 发 级 别 设置 被 删除 。 缓 存 并 发 级 别 设置 有 两 个 参数 indices.requests.cache.concurrency level, indices.fielddata.cache.concurrency level 


通过 系统 属性 配置 Elasticsearch 进 行 了 调整 ， 将 不 再 支持 通过 系统 属性 配置 。 


为 他 们 不 再 适用 于 用 于 请 求 缓存 和 字段 数据 缓存 的 


通过 ES JAVA_OPTS 环 境 变量 设置 将 取消 。 


现在 用 -Ename.of.setting 来 设置 配置 。 


通过 双 横 线 设置 参数 将 取消 ， 例 如 --name.of.setting value.of.setting， 现 在 用 -Ename.of.setting=value.of.setting 来 替换 。 


通过 .properties 文 件 配置 设置 将 取消 。Elasticsearch 的 运行 配置 和 日 志 配置 将 不 再 支持 .properties 文 件 方式 (就 是 键 值 对 的 方式 将 被 取消 ) 。 


18.Discovery 设 置 


当 节 点 有 network.host、network.bind_host、network.publish_host、transport.host、transport.bind_host、transport.publish_host 的 时 候 ， 必 须 设 置 qiscovery.zen.minimum_master_node， 


因为 系统 被 认为 是 在 生产 环境 中 。 


19. 时 实 设置 
action.get.realtime 设 置 将 被 取消 。 
20. 存 储 锁 设置 
bootstrap.mlockall 设 置 被 改名 为 bootstrap.memory lock, 
21. 快 照 设置 


restoring 快 照 映 射 参数 include_global_state 的 默认 值 由 true 改 为 false，taking 快 照 的 默认 值 还 是 true。 


不 再 支持 代表 周 的 时 间 单 位 w。 


小 数 的 时 间 值 (例如 ，0.5s) 不 再 支持 。 例 如 ， 这 意味 着 当 设 定 超时 0.5s 将 被 拒绝 ， 应 该 输入 “500ms”。 


Elasticsearch 以 前 版 本 默认 允许 多 个 节点 共享 相同 的 数据 目录 (50 个 以 上 ) ， 但 这 种 情况 有 时 候 会 混乱 ， 当 同时 启动 多 个 节点 的 时 候 ， 第 二 个 节点 有 可 能 看 到 的 是 一 个 空 的 目录 ， 然 后 认为 集群 没有 任 
何 的 数据 节点 。 这 种 设置 在 笔记 本 上 做 测试 是 比较 好 的 ， 但 这 并 不 是 生产 环境 中 常用 的 方式 。 为 了 更 安全 的 操作 ， 默 认 node.max_local_storage_nodes 被 设置 为 1。 


22. 脚 本 设置 


索引 脚本 已 被 存储 的 脚本 所 取代 ， 下 面 的 设置 已 被 替换 : 


` script.indexed 4% A script.stored. 

` script.engine.*.indexed.ages #4% A script.engine.*.stored.aggs o 

` script.engine.*.indexed.mapping #4# A script.engine.*.stored.mappings 
` script.engine.*.indexed.search #4 A script.engine.*.stored.search. 


` script.engine.*.indexed.update #4% A script.engine.*.stored.update 


` script.engine.*.indexed. plugin} # A script.engine.*.stored.plugin. 


其 中 * 代 表 的 脚本 语言 ， 例 如 groovy、mustache、painless 等 。 
23. 脚 本 模式 设置 


以 前 的 脚本 模式 设置 ， 例 如 : "script.inline:true"、"script.engine.groovy.inline.aggs:false" 等 ， 接 受 广泛 的 “truthy” 或 “falsy” 值 。 现 在 比较 严格 ， 只 支持 true 和 false 选 项 。 


脚本 沙 箱 设置 将 被 移 除 ， 之 前 script.inline 和 script.stored 可 以 设置 为 aandbox。 现 在 只 能 设置 set script.line:true 或 者 script.stored:true。 


搜索 设置 index.query.bool.max_clause_count 将 取消 。 用 indices.query.bool.max_clause_count 来 设置 布尔 子 句 的 最 大 数目 。 


A42 打包 接口 的 变化 


Apt/yum 安 装 下 载 地 址 发 生 了 变化 ， 从 https://packages.elastic.co 到 https://artifacts.elastic.co/。 


新 版 本 启动 时 间 会 变 长 。 在 5.0 版 本 中 JVM 启 动 参数 增加 了 -XX:+AlwaysPreTouch 标 志 ， 这 个 选项 将 在 启动 的 时 候 占 用 JVM 堆 的 所 有 内 存 页 ， 这 样 在 GC 垃 圾 回收 时 间 减 少 内 存 页 提交 的 机 会 。 但 这 将 增 
加 Elasticsearch 的 启动 时 间 ， 同 时 增加 Elasticsearch 的 初始 化 内 存 空 间 。 


1JVM 选 项 


Java 庶 拟 机 选择 参数 配置 被 放 在 了 一 个 新 的 配置 文件 vm.options 中 。 


这 意味 着 以 前 的 通过 环境 变量 设置 的 参数 都 被 取消 了 ,包括 ES_MIN_MEM、ES MAX_MEM, ES_HEAP SIZE, ES HEAP_NEWSIZE, ES DIRECT SIZE, ES_USE_IPV4, ES_GC_OPTS, 
ES GC LOG FILE, and JAVA_OPTS。 


当 通 过 解压 Elasticsearch 包 的 时 人 息 ， 默 认 的 位 置 在 config/jvm.options 中 ， 通 过 Debain 或 者 RPM 包 安装 后 的 默认 配置 路 径 在 /etc/elasticsearch/jvm.options 中 ， 也 可 以 通过 设置 环境 变量 
ES JVM_OPTIONS 来 改变 文件 的 路 径 。 


2. 用 于 Windows 服 务 的 线程 堆栈 大 小 


在 之 前 安装 成 Windows 服 务 时 ， 安 装 脚本 会 配置 线程 的 堆栈 大 小 (这 是 服务 守护 进程 需要 ) ， 但 现在 由 于 配置 被 移 到 了 jvm.options 文 件 中 ， 则 安装 脚本 不 再 配置 线程 的 堆栈 大 小 。 在 新 版 本 中 ， 在 安 
装 成 Windows 服 务 前 需要 修改 jvm.options 文 件 ， 在 32 位 系统 中 添加 -Xss320k 参 数 ， 在 64 位 系统 中 添加 -Xss1m 参 数 。 


3./bin/bash 文 件 被 依赖 


之 前 的 版 本 ， 用 来 启动 Elasticsearch 和 运行 插件 的 命令 脚本 依赖 Bourne-compatible shell。 在 5.0 中 ， 通 过 RPM 和 Debian 包 安装 需要 依赖 bash shell，bash shell 的 默认 路 径 是 /bin/bash。 


在 之 前 配置 Elasticsearch 环 境 变 量 有 两 种 方法 ， 一 是 通过 占 位 符 语法 $env.ENV_VAR_NAME}， 二 是 没有 env 前 缀 的 语法 $ENV_VAR_NAME}， 现 在 只 保留 了 第 二 种 写法 ， 第 一 种 写法 被 移 除 。 


同样 ， 通 过 JVM 系 统 参数 设置 的 Elasticsearch 配 置 也 被 取消 。 


在 之 前 的 版 本 如 果 遇 到 内 存 溢出 或 者 其 他 致命 错误 则 Elasticsearch 不 会 停止 工作 ， 但 这 样 会 可 能 会 产生 比较 严重 的 问题 ， 在 5.0 后 ， 当 遇 到 这 些 问题 时 候 ， 会 重新 启动 Elasticsearch。 


AS 脚本 的 变化 


A.5.1 脚本 和 模板 


系统 默认 的 脚本 语言 从 Groovy 到 Painless。Painless 脚 本 语言 有 类 似 Groovy 的 语法 ， 更 安全 ， 更 快 。 从 Groovy 转 到 Painless 是 非常 简单 的 。 


Groovy 和 Painless 在 语法 上 有 个 显著 的 不 同 在 使 用 参数 上 。 所 有 的 Painless 参 数 必 须 有 一 个 前 级 ， 比 如 : 


Groovy: 
{ 
"script_score": { 
"script": { 


"inline": "Math.log(_score * 2) + my modifier", 
"params": {"my modifier": 8} 
} 
} 


Painless (my modifer is prefixed with params): 
{ 
"script_score": { 
"soript!'; { 
"lang": "painless", 
"inline": "Math.log(_score * 2) + params.my modifier", 
"params": {"my modifier": 8} 
} 
} 
$ 


script.default_lang 的 设置 被 移 除 ， 因 为 系统 不 再 支持 默认 其 他 脚本 语言 。 如 果 要 使 用 其 他 脚本 语言 ， 需 要 在 请 求 的 参数 中 显 式 地 指出 来 。 


有 部 分 已 经 存储 的 过 滤 查 询 是 没有 制定 具体 的 脚本 语言 ， 这 时 候 上 默认 的 语言 由 script.legacy.default_lang 设 置 。 


在 1.X 版 本 中 定义 的 内 联 脚本 /模板 将 被 移 除 。 基 于 脚本 /模板 的 索引 或 者 文件 将 被 删除 。 


脚本 和 字符 串 参数 将 不 再 被 使 用 ， 将 使 用 脚本 对 象 的 语法 来 代替 ， 这 适用 于 update api, script sort, script_score function, script query、scripted_metric aggregation, script_heuristic 


aggregation。 


内 联 脚本 将 不 再 被 使 


{ 


"script": "Math.log(_score * 2) + my modifier", 
"params": {"my modifier": 8} 
} 
i 


被 替换 成 了 下 面 的 写法 : 


{ 
"script score": { 
"ecript™: { 


} 
} 
} 


script 和 script_file 参 数 将 不 再 有 效 ， 由 基于 脚本 或 者 模板 的 文件 file 来 代 蔡 。 


基于 文件 的 脚本 的 用 法 将 不 再 有 效 : 


{ 
"script_score": { 
"script": "calculate-score", 
"params": {"my modifier": 8} 


"script": { 


} 
} 
} 


script_id 参 数 将 不 再 被 使 用 ， 由 id 来 代 蔡 。 


{ 

"script_scor 
"script jd "indexedCalculateScore", 
"params": {"my_modifier": 8} 

} 

} 


现在 是 : 


"script_score": { 
"script": { 
"id": "indexedCalculateScore", 


"params": {"my modifier": 8} 
} 
} 
} 


模板 查询 中 的 query 参 数 将 不 再 被 使 用 ， 由 inline 参 数 代替 。 


{ 


"query": { 
"template": { 
"query": {"match_{{template}}": {}}, 
"params" : {"template" : "all"} 
} 
} 
} 
现在 是 : 
{ 
"query": { 
"template": { 
"inline": {"match_{{template}}": {}}, 
"params" : {"template" : "all"} 


f 
} 
} 


搜索 模板 中 的 顶层 模板 template 字 段 被 替换 为 一 致 的 模板 /脚本 对 象 语法 。 


"template" : { 
query": { "match" : { "{{my_field}}" : "{{my_value}}" } }, 


size" : "{{my_size}}" 
hy 
"params" : { 
"my field" : "foo", 
"my value" : "bar", 
"my size" : 5 
} 
} 
现在 是 : 
"inline" : { 
"query": { "match" < { "{{my_field}}" : "{{my_value}}" } }, 
"size" : "{{my_size}}" 
hy 
"params" : { 
"my field" : "foo", 
"my value" : "bar", 
"my size" : 5 
} 
} 
索引 脚本 和 模板 


索引 脚本 和 模板 已 被 存储 的 脚本 所 取代 ， 集 群 state 中 存储 的 脚本 或 者 模板 来 代替 .scripts 索 引 。 


存储 脚本 的 默认 大 小 不 能 超过 65535 个 字 节 。 可 以 通过 scriptimax_size_in_bytes 参 数 来 修改 这 个 值 。 如 果 脚 本 非常 大 ， 可 以 考虑 有 


native scripts 本 地 脚本 来 代替 存储 脚本 。 


以 前 存储 在 .scripts 索 引 中 的 脚本 将 不 能 再 使 用 ， 现 在 Elasticsearch 将 在 集群 state 中 读 取 脚 本 。 升 级 到 5.X 后 ，.scripts 索 引 依然 存在 ， 如 果 要 继续 使 用 此 脚本 ， 需 要 将 存储 在 .scripts 中 的 脚本 迁移 到 集群 


state 中 。 两 者 的 语法 是 一 样 的 ， 不 需要 修改 。 


A.5.2 ”脚本 迁移 


1.Python 迁 移 脚 本 


下 面 的 Python 脚本 可 以 用 来 导入 索引 脚本 到 群集 state 中 存储 : 


from elasticsearch import Elasticsearch, helpers 
es = Elasticsearch ([ 

{"host': 'localhost'} 
II 


for doc in helpers.scan(es, index=".scripts", preserve_order=True) : 
es.put_script (lang=doc['_type'], id=doc['_id'], body=doc['_source']) 


该 脚本 使 用 了 官方 Elasticsearch 客 户 端 因 此 你 需要 确保 在 环境 中 安装 了 客户 端 。 


2.Perl 的 迁移 脚本 


下 面 的 Perl 脚 本 可 以 用 来 导入 索引 脚本 到 群集 state 中 存储 : 


use Search: :Elasticsearch; 


my Ses = Search: :Elasticsearch->new( nodes => 'localhost:9200'); 
my $scroll = $es->scroll_helper( index => '.scripts', sort => ' doc'); 


while (my $doc = $scroll=>next) { 
$e->put_script ( 


lang => $doc->{_type}, 
id => $doc->{ id), 
body => $doc->{_source} 


3. 验 证 迁移 脚本 


当 已 经 通过 之 前 的 脚本 或 以 其 他 方式 迁移 了 ， 可 以 用 以 下 请 求 来 验证 ， 例 如 : 


GET _cluster/state?filter_path=metadata.stored_scripts 


响应 应 该 包括 .scripts 索 引 中 的 所 有 脚本 。 当 证 明 所 有 的 .scripts 索 引 都 被 移 走 了 ， 可 以 删除 .scripts 索 引 。 


A5.3 ”脚本 配置 的 变化 


1. 脚 本 引擎 现在 只 能 有 一 种 方式 注册 


在 5.0.0 之 前 ， 脚 本 引擎 可 以 登记 多 方式 。Javascript 脚 本 语言 可 以 登记 为 "lang ":"js" 或 者 "lang":"javascript"。 脚 本 引擎 现 在 只 能 注册 一 个 单一 的 语言 ， 所 有 的 "lang ":"js" 将 被 蔡 换 


为 "lang":"javascript"。 


2. 脚 本 的 扩展 文件 名 称 只 能 有 一 种 写法 


之 前 脚本 文件 的 扩展 名 有 多 种 写法 ， 比 如 "js" 和 "javascript"， 现 在 所 有 的 扩展 文件 名 只 能 有 js 这 一 种 写法 。 


javascript 文 件 后 缀 的 方法 将 不 再 支持 。 


Update REST 接 口中 删除 了 string 参 数 。 


cript、script_id 和 scripting_upsert 查 询 参 数 将 被 移 除 。 


ASA _ Java 脚本 的 变化 


1Java APl 索 引 脚 本 


所 有 与 索引 脚本 交互 的 方法 都 已 被 删除 。 和 存储 脚本 进行 交互 的 java API 的 方法 在 clusteradminclient 类 中 。 如 果 一 个 字符 串 需 要 提供 bytesarray 类 应 用 ， 则 提供 脚本 的 唯一 途径 是 通过 bytesreference 


2.Java 传 输 客户 


TemplateQueryBuilder 类 将 被 移 除 。 


TransportClient transportClient = TransportClient.builder () 


.Settings (Settings.builder() .put ("node.name", "node") ) 
.addPlugin (MustachePlugin.class) 
-build(); 


transportClient.addTransportAddress ( 
new InetSocketTransportAddress (new InetSocketAddress (InetAddresses. forString("127.0.0.1"), 9300)) 
17 


在 QueryBuilders 类 中 创建 TemplateQueryBuilder 实 例 的 方法 被 移 除 。TemplateQuery-Builder 的 构造 函数 现在 可 以 使 用 。 


模板 查询 接口 将 不 建议 使 用 ， 在 下 个 版 本 中 将 移 除 。 


在 GeoPoint 脚 本 中 将 移 除 以 下 方法 : 


factorDistance 
factorDistanceWithDefault 
factorDistance02 
factorDistancel13 
arcDistanceInKm 
arcDistanceInKmWithDefault 
arcDistanceInMiles 
arcDistanceInMilesWithDefault 
distanceWithDefault 
distanceInkKm 
distanceInkmWithDefault 
distanceInMiles 
distanceInMilesWithDefault 
geohashDistanceInkm 
geohashDistanceInMiles 


下 面 的 方法 进行 代替 : 


arcDistance, arcDistanceWithDefault, planeDistance, planeDistanceWithDefault, geohashDistance, geohashDistanceWithDefault 


A6 其 他 变化 


A.6.1 分 片 分 配 的 变化 


在 此 之 前 ， 当 指定 数量 的 分 配 副本 被 发 现时 主 分 片 被 分 配 (这 个 数量 由 index.recovery.initial_shards 参 数 指定 ， 现 在 已 经 废弃 了 ) 。 在 这 种 情况 下 ， 如 果 主 分 片 的 配置 只 有 一 个 副本 ， 就 是 集群 的 定义 
是 一 个 单一 的 分 片 ， 这 意味 着 索引 的 任何 分 片 拷贝 都 有 可 能 成 为 主 分 片 ， 甚 至 是 一 个 很 久 以 前 的 数据 。 现 在 通过 分 配 分 片 1Ds 来 解决 这 个 问题 。 


分 配给 分 片 拷贝 一 个 唯一 的 1Ds 作 为 标志 。 这 人 允许 集群 区 分 有 效 的 相同 的 数据 和 路 径 的 多 个 副本 ， 在 集群 启动 后 ， 只 有 分 片 的 副本 包含 最 新 的 数据 时 才 可 以 成 为 主 分 片 。 
通过 分 配 1Ds 来 代 蔡 以 前 的 版 本 号 来 识别 分 片 的 拷贝 ， 在 索引 分 片 存储 API 中 也 做 了 相应 的 调整 。 例 如 : 


请 求 : GET http://127.0.0.1:9200/secisland/_shard_stores 


返回 值 : 


{ 
htt] 
"o": { 
"stores": [ 


{ 


"sPa30gxLSYGvQ4oPs-Tajw" : 


"name": "node t0", 


"transport_address": "local[1]", 


"attributes": { 
"mode": "local" 


} 


] 
"allocation_id": "2iNySv_OQVePRX-yaRH_10", 


"legacy version": 42, 


"allocation" : "primary" | "replica" | "unused", 
"store exception": http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... 


{ 


p://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... 


1 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... 


$ 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15994/OEBPS/Text/... 


在 返回 的 结果 中 ， 新 的 版 本 返回 字段 是 allocation_id， 老 版 本 返回 的 字段 是 version。 这 个 字段 可 用 于 创建 Elasticsearch 的 当前 版 本 或 者 在 集群 中 有 效 的 版 本 中 所 有 分 片 的 拷贝 。legacy _version 字 段 可 


以 理解 为 以 前 版 本 的 version 字 段 。 


路 由 命令 在 新 的 版 本 中 有 两 条 命令 ，allocate_replica 和 allocate_empty_primary。 我 们 引入 了 一 个 新 的 命令 allocate_stale_primary。allocate_replica 命 令 可 以 理解 为 以 前 设置 allow_primary 为 false 


的 情况 ，allocate_empty_primary 命 令 可 以 理解 为 以 前 设置 allow_primary 为 ture 的 情况 。 


自 定义 路 由 命令 Elasticsearch 不 再 支持 注册 自 定义 配置 命令 插件 。 


index.shared filesystem.recover_ on_any_node 为 true 的 行为 进行 了 调整 ， 在 之 前 当 没有 分 片 的 副本 被 发 现时 ， 有 可 能 选择 任意 的 节点 ， 但 现在 为 了 考虑 平衡 进行 有 选择 地 分 配 节点 。 


分 片 副本 的 发 现 的 行为 也 发 生 了 变化 ， 在 之 前 如 果 没 有 满足 条 件 的 分 片 副本 则 不 进行 分 片 副本 分 配 ， 但 现在 可 以 分 配 分 片 的 副本 。 


A.6.2 HTTP 协 议 的 变化 


HTTP 协 议 请 求 压缩 始终 被 支持 ， 在 之 前 的 版 本 中 需要 设置 http.compressed 为 true 才 开启 压缩 功能 。 


A.6.3 插件 的 变化 


揪 件 命令 由 bin/plugin 修 改 为 bin/elasticsearch-plugin。 插 件 的 文档 结构 也 做 了 修改 。 所 有 的 插件 文件 必须 在 Elasticsearch 顶 级 的 目录 中 。 如 果 你 用 工 . 


1. 揪 件 隔 离 


隔离 (isolation) 选项 已 被 删除 。 每 个 插件 都 有 它 自己 的 类 加 载 器 。 


2. 网 站 的 插件 删除 


网 站 插件 已 被 删除 。 网 站 插件 应 该 在 Kibana 插 件 中 实现 。 


3. 多 播 的 插件 删除 


已 删除 多 播 。 使 用 单 播发 现 ， 或 云 发 现 插件 。 


4. 自 定义 查询 插件 的 实 


E 


生成 ， 这 种 结构 会 自动 生成 。 


自 定义 查询 插件 需要 在 QueryParser 子 类 中 实现 fromXContent 方 法 。 插 件 实现 自 定义 评分 功能 需要 在 scorefunctionparser 子 类 中 实现 fromxcontent 方 法 。 


Delete-By-Query 插 件 已 移 除 ， 现 在 在 Elasticsearch 的 核心 中 


Delete By Query 接 | 


请 求 : POST http://127.0.0.1:9200/secisland/_delete_by query 


来 实现 。 当 删除 时 间 比 较 长 的 时 候 ， 可 以 通过 cancel 接 


取消 。 


"query": { 
"match": { 


"message": "some message" 


} 
} 
} 


返回 值 : 


"took" : 147, 

"timed out": false, 
"deleted": 119, 
"batches": 1, 
"version_conflicts": 0, 
"noops": 0, 


"retries": {"bulk": 0,"search": 


"throttled millis": 0, 
"requests Der second": -1.0, 
"throttled until millis": 0, 
"total": 119, = 
"failures" : [1 


0}, 


5. 取 消 接 


请 求 : POST http://127.0.0.1:9200/_tasks/task_id:1/_cancel 


attachments 插 件 被 ingest-attachment 插 件 代替 


ava 系 统 属性 设置 ， 在 之 前 的 Java 系 统 属性 设置 可 以 在 插件 脚本 中 -D 参 数 直接 使 用 。 现 在 这 种 情况 将 不 再 允许 ， 现 在 通过 ES JAVA_OPTS 参 数 进行 设置 。 


通过 path.plugins 设 置 自 定义 插件 路 径 将 取消 。 

自 定义 脚本 插件 将 通过 ScriptPlugin 实 现 ， 取 消 了 以 前 的 通过 onModule 实 现 。 

自 定 义 分 词 插件 通过 AnalysisPlugin 实 现 ， 取 消 了 以 前 的 通过 onModule 实 现 。 

自 定 义 映 射 插件 通过 MapperPlugin 实 现 ， 取 消 了 以 前 的 通过 onModule 实 现 。 

自 定义 行为 插件 通过 ActionPlugin 实 现 ， 取 消 了 以 前 的 通过 onModule 实 现 。 

自 定义 RestHandler 担 插件 通过 ActionPlugin 实 现 ， 取 消 了 以 前 的 通过 onModule 实 现 。 


自 定义 搜索 插件 通过 SearchPlugin 实 现 ， 取 消 了 以 前 的 通过 onModule 实 现 。 


SearchParseElement 接 口 将 被 移 除 。 自 定义 请 求 部 分 只 能 通过 扩展 (ext) 元 素 实现 ， 通 过 SearchPlugin.SearchExtSpec 提 供 在 自 定义 解析 器 的 附加 部 分 插入 自 定义 的 内 容 ， 在 SearchExtSpec 中 实现 
XContent 语 法 。 语 法 解析 现在 在 协调 节点 。 语 法 解析 后 的 结果 和 搜索 请 求 的 其 他 部 分 会 通过 传输 层 到 数据 节点 ， 然 后 存储 在 搜索 上 下 文中 用 于 以 后 检索 。 


6 .测试 自 定义 插件 


ESlntegTestCase#pluginlist 已 被 删除 ， 用 Arrays.asList 来 代替 ， 现 在 它 不 需要 所 有 的 插件 都 要 用 java 1.8 来 实现 。 


在 2.X 版 本 索引 中 的 元 字段 _size 在 聚合 ， 脚 本 和 排序 中 不 能 使 用 ， 如 果 需 要 使 用 这 些 特性 ， 请 用 5.X 版 本 重建 索引 。 


A64 文件 系统 相关 的 变化 


在 2.X 版 本 中 ， 索 引文 件 的 子 集 是 通过 mmap 打 开 。 在 5.X 中 ， 在 64 为 系统 中 所 有 的 索引 文件 都 是 通过 mmap 打 开 ， 这 可 能 会 增加 虚拟 内 存 使 用 量 ， 但 影响 不 大 ， 因 为 这 只 增加 了 地 址 空间 的 消耗 ， 其 他 


实际 内 存 的 使 用 情况 和 2.X 类 似 。 


App ”磁盘 上 的 数据 的 路 径 


在 之 前 的 版 本 中 ， 数 据 路 径 通 过 path.data 进 行 配 
使 用 ,现在 存储 的 全 路 径 为 $4DATA_DIR/nodes/$nodeOrdinal。 但 为 了 兼容 性 ， 在 启动 后 系统 会 检查 集群 文件 夹 和 文件 夹 中 的 数据 是 否 存 在 ， 如 果 存 在 ， 系 统 将 会 尽 可 能 读 取 数据 。 这 个 特性 将 在 6.0 中 取 


如 果 多 个 集群 实例 公 


在 5.0 之 前 ， 当 node.data:false 和 node.master:false 设 置 的 时 候 ， 系 统 是 不 写 入 任何 文件 到 到 磁盘 。 在 5.X 中 ， 系 统 需要 写 入 实例 化 节点 ids 标 志 ， 需 要 节点 来 存储 这 些 信息 。 因 


将 写 入 一 个 小 的 状态 文件 到 


一 个 数据 路 径 ， 需 要 在 数据 路 径 下 添加 集群 名 称 ， 这 样 就 可 以 保证 不 同 的 集群 存储 到 不 同 的 路 径 下 。 


， 实 际 的 路 径 包括 集群 名 称 。 所 以 数据 路 径 的 全 路 径 为 $4DATA_DIR/$CLUSTER_NAME/nodes/$nodeOrdinal。 在 5.0 中 路 径 中 的 集群 名 称 将 不 建议 


其 数据 文件 夹 。 


此 ， 所 有 的 节点 类 型 都 


